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感谢 您 购买 异步 社区 电子 书 ! 异步 社区 已 上 架 电 子 书 500 余 种 ， 社 区 还 会 经 常 发 布 福利 信 
息 ， 对 社区 有 贡献 的 读者 赠送 免费 样 书 券 、 优 惠 码 、 积 分 等 等 ， 希 望 您 在 阅读 过 程 中 ， 把 您 的 
阅读 体验 传递 给 我 们 ， 让 我 们 了 解读 者 心声 ， 有 问题 我 们 会 及 时 修正 。 

社区 网 址 : http:/Avww.epubit.com.cn/ 


反馈 邮箱 : contact@epubit.com.cn 





异步 社区 里 有 什么 ? 
BB, BFE (半价 电子 书 )、 优 秀 作 译 者 、 访 谈 、 技 术 会 议 播报 、 赠 书 活动 、 下 载 资源 。 
异步 社区 特色 





纸 书 、 电 子 书 同步 上 架 、 纸 电 捆绑 超 值 优惠 购买 。 
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博客 式 写作 发 表 文章 ， 提 交 勘 误 赚 取 积分 ， 积 分 竞 换 样 书 ， 写 书评 赢 样 书 券 等 
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内 容 提要 


本 书 介绍 了 Python 应 用 在 各 个 领域 中 的 一 些 使 用 技巧 和 方法 ， 其 主题 涵盖 了 数据 结构 
和 算法 ,字符 串 和 文本 ， 数 字 、 日 期 和 时 间 ， 和 迭代 器 和 生成 器 ,文件 和 IO ， 数 据 编码 
与 处 理 ， 隐 数 ， 类 与 对 象 ， 元 编程 ， 模 块 和 包 ， 网 络 和 Web 编程 ， 并 发 ， 实 用 脚本 和 
系统 管理 ,测试 、 调 试 以 及 异常 ，C 语言 扩展 等 。 

本 书 履 盖 了 Python 应 用 中 的 很 多 常见 问题 ， 并 提出 了 通用 的 解决 方案 。 书 中 包含 了 大 
量 实用 的 编程 技巧 和 示例 代码 , 并 在 Python 3.3 环境 下 进行 了 测试 , 可 以 很 方便 地 应 用 
到 实际 项 目 中 去 。 此 外 ， 本 书 还 详细 讲解 了 解决 方案 是 如 何 工 作 的 ， 以 及 为 什么 能 够 
工作 。 


本 书 非常 适合 具有 一 定编 程 基础 的 Python 程序 员 阅 读 参考 。 













































































O'Reilly Media, Inc. 介绍 


O’Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 
自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开 
创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 
社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 
的 倡导 、 创 造 和 发 扬 光 大 。 

O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 (GNN ); 组 


织 








影响 深远 的 开放 源 代码 峰会 , 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂志 ， 
从 而 成 为 DIY 革命 的 主要 先锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。 






































O'Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 
新 产业 的 革命 性 思想 。 作 为 技术 人 士 获 取信 息 的 选择 ，O’Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无论 是 通过 书籍 出 版 , 在线 服 务 或 者 面授 课程 ， 每 一 
项 O'Reilly 的 产品 都 反映 了 公司 不 可 动 播 的 理念 一 一 信息 是 激发 创新 的 力量 。 


业界 评论 


























“O’Reilly Radar 博客 有 口 ae,” 
一 一 Wired 


“O’Reilly 凭借 一 系列 (真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 
的 业务 .” 


一 一 Business 2.0 

“O’ Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 

“一 本 OReilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 .” 
一 一 Irish Times 


“Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 分 路 口 ， 走 小 路 (5H). BMA 
Tim 似乎 每 一 次 都 选择 了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 .” 


一 一 Linux Journal 
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Á 2008 ELUX, RIEA HTA Python 世界 正 缓 慢 向 着 Python 3 进化 的 事实 。 
众所周知 ,完全 接纳 Python 3 要 花 很 长 的 时 间 。 事 实 上 ,就 在 写作 本 书 时 (2013 年 )， 
大 多 数 Python 程序 员 仍然 坚持 在 生产 环境 中 使 用 Python 2。 关 于 Python 3 不 能 向 后 
兼容 的 事实 也 已 经 做 了 许多 努力 来 补救 。 的 确 , 向 后 兼容 性 对 于 任何 已 经 存在 的 代码 
库 来 说 是 个 问题 。 但 是 ,如 果 你 着 眼 于 未 来 ,你 会 发 现 Python 3 带 来 的 好 处 绝 非 那么 
简单 。 


正 因为 Python 3 是 着 眼 于 未 来 的 , 本 书 在 之 前 的 版 本 上 做 了 很 大 程度 的 修改 。 首先 也 
是 最 重要 的 一 点 , 这 是 一 本 积极 拥抱 Python 3 的 书 。 所 有 的 章节 都 采用 Python 3.3 来 
编写 并 进行 了 验证 ， 没 有 考虑 老 的 Python 版 本 或 者 “老式 ”的 实现 方式 。 事 实 上 ， 
许多 章节 都 只 适用 于 Python 3.3 甚至 更 高 的 版 本 。 这 人 么 做 可 能 会 有 风险 , 但 是 最 终 的 
目的 是 要 编写 一 本 Python 3 的 秘籍 , 尽 可 能 基于 最 先进 的 工具 和 惯用 法 。 我 们 希望 本 
书 可 以 指导 人 们 用 Python 3 编写 新 的 代码 ， 或 者 帮助 开发 人 员 将 已 有 的 代码 升级 到 
Python 3. 


ELWARA, 以 这 种 风格 来 编写 本 书 给 编辑 工作 带 来 了 一 定 的 挑战 。 只 要 在 网 络 上 搜索 
一 下 Python 秘籍 ， 立 刻 就 能 在 ActiveState 的 Python 版 块 或 者 Stack Overflow 这 样 的 
站 点 上 找到 数 以 千 计 的 使 用 心得 和 秘籍 。 但 是 , 大 部 分 这 类 资源 已 经 沉浸 在 历史 和 过 
去 中 了 。 由 于 这 些 心得 和 秘籍 几乎 完全 是 针对 Python 2 所 写 的 , 其 中 常常 包含 有 各 种 
针对 Python 不 同 版 本 ( 例如 2.3 版 对 比 2.4 版 ) 之 间 差 异 的 变通 方法 和 技巧 。 此 外 ， 
这 些 网 上 资源 常常 使 用 过 时 的 技术 ， 而 这 些 技术 现在 成 了 Python 3.3 的 内 建功 能 。 想 
寻找 专门 针对 Python 3 的 资源 会 比较 困难 。 


本 书 并 非 搜寻 特定 于 Python 3 方面 的 秘籍 将 其 汇集 而 成 , 本 书 的 主题 都 是 在 创作 中 由 
现 有 的 代码 和 技术 而 产生 出 的 灵感 。 我 们 将 这 些 思想 作为 跳板 , 尽 可 能 采用 最 现代 化 
的 Python 编程 技术 来 写作 ， 因 此 本 书 的 内 容 完全 是 原创 性 的 。 对 于 任何 希望 以 现代 
化 的 风格 来 编写 代码 的 人 ， 本 书 都 可 以 作为 参考 手册 。 

在 选择 应 该 包含 哪些 章节 时 , 我 们 有 一 个 共识 。 那 就 是 根本 不 可 能 编写 一 本 涵盖 了 每 
种 Python 用 途 的 书 。 因 此 ， 我 们 在 主题 上 优先 考虑 Python 语言 核心 方面 的 内 容 ， 以 
及 能 够 广泛 适用 于 各 种 应 用 领域 的 常见 任务 。 此 外 , 有 许多 秘籍 是 用 来 说 明 在 Python 
3 中 新 增 的 功能 , 这 对 许多 人 来 说 比较 陌生 , 甚至 对 于 那些 使 用 老 版 Python 经 验 丰 富 
的 程序 员 也 是 如 此 。 我 们 也 会 优先 选择 普遍 适用 的 编程 技术 ( 即 ， 编 程 模 式 ) 作为 主 



















































































































































































































































































AGL, Wi ANSE PEAB LE sk A RAE BS AR SE or LAE PE. 尽管 
在 部 分 章节 中 也 提 到 了 特定 的 第 三 方 软件 包 , 但 本 书 绝 大 多 数 章节 都 只 关注 语言 核心 
和 标准 库 。 

本 书 适 合 谁 

本 书 的 目标 读者 是 希望 加 深 对 Python 语言 的 理解 以 及 学 习 现代 化 编程 惯用 法 的 有 经 验 
的 程序 员 。 本 书 许多 内 容 把 重点 放 在 库 、 框 架 和 应 用 中 使 用 的 高 级 技术 上 。 本 书 假设 
读者 已 经 有 了 理解 本 书 主题 的 必要 背景 知识 ( 例如 对 计算 机 科学 的 一 般 性 知识 、 数 据 
结构 、 复 杂 度 计算 、 系 统 编程 、 并 发 、C 语言 编程 等 )。 此 外 ， 本 书 中 提 到 的 秘籍 往往 
只 是 一 个 框架 ， 意 在 提供 必要 的 信息 让 读者 可 以 起 步 ， 但 是 需要 读者 自己 做 更 多 的 研 
究 来 填补 其 中 的 细节 。 因 此 ， 我 们 假设 读者 知道 如 何 使 用 搜索 引擎 以 及 优秀 的 Python 
在 线 文 档 。 
有 一 些 更 加 高 级 的 章节 将 作为 读者 耐心 阅读 的 奖励 。 这 些 章节 对 于 理解 Python 底层 的 
工作 原理 提供 了 深刻 的 见解 。 你 将 学 到 新 的 技巧 和 技术 ， 可 以 将 这 些 知识 运用 到 自己 
的 代码 中 去 。 


本 书 不 适合 谁 

这 不 是 一 本 用 来 给 初学 者 首次 学 习 Python 编程 而 使 用 的 书 。 EXE, 本 书 已 经 假设 读 
者 通过 Python 教程 或 者 入 门 书籍 了 解 了 基本 知识 。 本 书 同样 不 能 用 来 作为 快速 参考 手 
册 ( BN, 快速 查询 特定 模块 中 的 某 个 函数 )。 相 反 ， 本 书 的 目标 是 把 重点 放 在 特定 的 编 
程 主题 上 ， 展 示 可 能 的 解决 方案 并 以 此 作为 跳板 引导 读者 学 习 更 加 高 级 的 内 容 。 这 些 
内 容 你 可 能 会 在 网 上 或 者 参考 书 中 遇 到 过 。 











































































































本 书 中 的 约定 
ot 提示 
an | 。 这 个 图 标 用 来 强调 一 个 提示 、 建 议 或 一 般 说 明 ， 
ma) 





告 
个 图 标 用 来 说 明 一 个 警告 或 注意 事项 。 
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在 线 代 码 示例 


本 书 中 几乎 所 有 的 代码 示例 都 可 以 在 http://github.com/dabeaz/python-cookbook 上 找到 。 
作者 欢迎 读者 针对 代码 示例 提供 bug 修正 、 改 进 以 及 评论 。 








使 用 代码 示例 


本 书 的 目的 是 为 了 帮助 读者 完成 工作 。 一 般 而 言 ， 你 可 以 在 你 的 程序 和 文档 中 使 用 本 
书 中 的 代码 ， 而 且 也 没有 必要 取得 我 们 的 许可 。 但 是 ， 如 果 你 要 复制 的 是 核心 代码 ， 
则 需要 和 我 们 打 个 招呼 。 例 如 ， 你 可 以 在 无 需 获取 我 们 许可 的 情况 下 ， 在 程序 中 使 用 
本 书 中 的 多 个 代码 块 。 但 是 ,销售 或 分 发 90”Reilly 图 书 中 的 代码 光盘 则 需要 取得 我 们 
的 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 问题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 
是 ， 如 果 你 的 产品 文档 中 融合 了 本 书 中 的 大 量 示例 代码 ， 则 需要 取得 我 们 的 许可 。 
在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 的 属性 信息 是 最 好 不 过 。 一 个 属性 信息 通常 包 
括 书 名 、 作者、 出 版 社 和 ISBN。 例如 : Python Cookbook, 3rd edtion, by David Beazley and Brain 
K Jones(O’Reilly). Copyright 2013 David Beazley and Brain Jones, 978-1-449-34037-7。 


在 使 用 书 中 的 代码 时 ， 如 果 不 确 定 是 否 属于 正常 使 用 ， 或 是 否 超出 了 我 们 的 许可 ， 请 
通过 permissions @oreilly.com 与 我 们 联系 。 
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联系 方式 
如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
美国 : 


O’Reilly Media Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035 ) 
奥 莱 利 技术 咨询 (北京 ) 有 限 公 司 
我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额外 的 信息 。 你 可 以 
通过 链接 http://oreil.ly/python_cookbook_3e 来 访问 页 面 。 
关于 本 书 的 技术 性 问题 或 建议 ,请 发 邮件 到 : 
bookquestions @oreilly.com 


欢迎 登录 我 们 的 网 站 (http:/www.oreilly.com )， 查 看 更 多 我 们 的 书籍 、 课 程 、 会 议和 最 
新 动态 等 信息 。 


Facebook: http://facebook.com/oreilly 
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数据 结构 和 算法 





Python 内 置 了 许多 非常 有 用 的 数据 结构 ， 比 如 列表 Cist) RE (set) 以 及 字典 
(dictionary )。 就 绝 大 部 分 情况 而 言 ， 我 们 可 以 直接 使 用 这 些 数据 结构 。 但 是 ， 通 常 我 
们 还 需要 考虑 比如 搜索 、 排 序 、 排 列 以 及 筛选 等 这 一 类 常见 的 问题 。 因 此 ， 本 章 的 目 
的 就 是 来 讨论 常见 的 数据 结构 和 同 数据 有 关 的 算法 。 此外, 在 collections 模块 中 也 包含 
了 针对 各 种 数据 结构 的 解决 方案 。 
































1.1 将 序列 分 解 为 单独 的 变量 


1.1.1 问题 
我 们 有 一 个 包含 N 个 元 素 的 元 组 或 序列 ， 现 在 想 将 它 分 解 为 N 个 单独 的 变量 。 
1.1.2 解决 方案 


任何 序列 (或 可 迭代 的 对 象 ) 都 可 以 通过 一 个 简单 的 赋值 操作 来 分 解 为 单独 的 变量 。 
唯一 的 要 求 是 变量 的 总 数 和 结构 要 与 序列 相 吻 合 。 例 如 : 


>>> p= (4, 5) 


jen) 











>>> x, Y=P 
>>> x 

4 

>>> y 

5 

>>> 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 
>>> name, shares, price, date = data 
>>> name 





"ACME! 
>>> date 
(2012, 12, :21) 


>>> name, shares, price, (year, mon, day) = data 
>>> name 

"ACME! 

>>> year 

2012 

>>> mon 

12 

>>> day 

21 

>>> 


如 果 元 素 的 数量 不 匹配 ， 将 得 到 一 个 错误 提示 。 例 如 : 


>>> p = (4, 5) 
>>> X, Y, z=p 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: need more than 2 values to unpack 
>>> 


1.1.3 讨论 
实际 上 不 仅仅 只 是 元 组 或 列表 ， 只 要 对 象 恰好 是 可 迭代 的 ， 那么 就 可 以 执行 分 解 操作 。 
这 包括 字符 品 、 文 件 、 迭 代 器 以 及 生成 器 。 比 如 : 


>>> s = 'Hello' 








>>> a, b c, d, € = 8 
>> a 

"Hq! 

>>> b 

‘el! 

>>> e 

‘Oo! 

>>> 


当做 分 解 操作 时 ， 有 时 候 可 能 想 丢 弃 某 些 特定 的 值 。Python 并 没有 提供 特殊 的 语法 来 
实现 这 一 点 ,但 是 通常 可 以 选 一 个 用 不 到 的 变量 名 ， 以 此 来 作为 要 丢弃 的 值 的 名 称 。 
例如 : 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 


>>> _, shares, price, _ = data 








>>> shares 





50 

>>> price 
91.1 

>>> 


但 是 请 确保 选择 的 变量 名 没有 在 其 他 地 方 用 到 过 。 




















12 ”从 任意 长 度 的 可 和 迭代 对 象 中 分 解 元 素 


1.2.1 问题 
需要 从 某 个 可 迭代 对 象 中 分 解 出 N 个 元 素 ， 但 是 这 个 可 迭代 对 象 的 长 度 可 能 超过 N, 
这 会 导致 出 现 “ 分 解 的 值 过 多 (too many values to unpack )” 的 异常 。 


1.2.2 解决 方案 

Python 的 “* 表 达 式 ”可 以 用 来 解决 这 个 问题 。 例 如 ， 假设 开设 了 一 门 课程 ， 并 决定 在 
期 末 的 作业 成 绩 中 去 掉 第 一 个 和 最 后 一 个 ， 只 对 中 间 剩 下 的 成 绩 做 平均 分 统计 。 如 果 
只 有 4 个 成 绩 ， 也 许可 以 简单 地 将 4 个 都 分 解 出 来 ， 但 是 如 果 有 24 个 呢 ?”* 表 达 式 使 
这 一 切 都 变 得 简单 ; 


def drop_first_last (grades) : 


























first, *middle, last = grades 
return avg (middle) 


另 一 个 用 例 是 假设 有 一 些 用 户 记 录 ， 记 录 由 姓名 和 电子 邮件 地 址 组 成 ， 后 面 跟着 任意 
数量 的 电话 号 码 。 则 可 以 像 这 样 分 解 记录 : 


>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-555-1212') 
>>> name, email, *phone_numbers = user_record 





























>>> name 

"Dave! 

>>> email 

"dave@example.com' 

>>> phone_numbers 
['773-555-1212', '847-555-1212"] 
>>> 

















不 管 需要 分 解 出 多 少 个 电话 号 码 (甚至 没有 电话 号 码 )， 变 量 phone_numbers 都 一 直 是 
列表 , 而 这 是 毫 无 意义 的 。 如 此 一 来 , 对 于 任何 用 到 了 变量 phone_numbers 的 代码 都 不 
必 对 它 可 能 不 是 一 个 列表 的 情况 负责 ， 或 者 额外 做 任何 形式 的 类 型 检查 。 


由 * 修 饰 的 变量 也 可 以 位 于 列表 的 第 一 个 位 置 。 例 如 ， 比 方 说 用 一 系列 的 值 来 代表 公司 
过 去 8 个 季度 的 销售 额 。 如 果 想 对 最 近 一 个 季度 的 销售 人 额 同 前 7 个 季度 的 平均 值 做 比 
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较 ， 可 以 这 么 做 : 


*trailing_qtrs, current_gqtr = sales_record 
trailing_avg = sum(trailing_qtrs) / len(trailing_qtrs) 
return avg_comparison(trailing_avg, current_qtr) 


从 Python 解释 器 的 角度 来 看 ， 这 个 操作 是 这 样 的 : 


>>> *trailing, current = [10, 8, 7, 1, 9, 5, 10, 3] 








>>> trailing 

[10, 8, 7, 1, 9, 5, 10] 
>>> current 

3 


1.2.3 讨论 
对 于 分 解 未 知 或 任意 长 度 的 可 迭代 对 象 ， 这 种 扩展 的 分 解 操 作 可 谓 是 量 身 定做 的 工具 。 
通常 ， 这 类 可 迭代 对 象 中 会 有 一 些 已 知 的 组 件 或 模式 ( 例如 ， a gee 
都 是 电话 号 码 )， 利 用 * 表 达 式 分 解 可 迭代 对 象 使 得 开发 者 能 够 轻松 利用 这 些 模 式 ， 
不 必 在 可 迭代 对 象 中 做 复杂 花哨 的 操作 才能 得 到 相关 的 元 素 。 
* 式 的 语法 在 迭代 一 个 变 长 的 元 组 序列 时 尤其 有 用 ,例如 ,假设 有 一 个 带 标 记 的 元 组 序列 : 

records = [ 

(*£007 y Lry 


('bar', 'hello'), 
("foo', 3, 4), 
































] 


def do_foo(x, y): 
print ('foo', x, y) 


def do_bar(s): 
print ('bar', s) 


for tag, *args in records: 
if tag == 'foo': 
do_foo(*args) 
elif tag == 'bar': 
do_bar (*args) 


当 和 菜 些 特定 的 字符 串 处 理 操作 相 结合 ， 比 如 做 拆 分 (splitting ) 操作 时 ， 这 种 * 式 的 语 
法 所 支持 的 分 解 操作 也 非常 有 用 。 例 如 : 


>>> line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false' 





>>> uname, *fields, homedir, sh = line.split(':') 
>>> uname 

"nobody' 

>>> homedir 





'/var/empty' 

>>> sh 
'/usr/bin/false' 
>>> 


有 时 候 可 能 想 分 解 出 某 些 值 然 后 丢弃 它们 。 在 分 解 的 时 候 ， 不 能 只 是 指定 一 个 单独 的 * ， 
但 是 可 以 使 用 几 个 常用 来 表示 待 丢 充值 的 变量 名 ， 比 如 或 者 ign (ignored )。 例 如 : 


>>> record = ('ACME', 50, 123.45, (12, 18, 2012)) 


>>> name, *_, (*_, year) = record 





>>> name 
"ACME! 
>>> year 
2012 

>>> 


* 分 解 操作 和 各 种 函数 式 语言 中 的 列表 处 理 功 能 有 着 一 定 的 相似 性 。 例 如 ， 如 果 有 一 个 
列表 ， 可 以 像 下 面 这 样 轻松 将 其 分 解 为 头 部 和 尾部 : 


>>> items = [1, 10, 7, 4, 5, 9] 
>>> head, *tail = items 








>>> head 

1 

>>> tail 

[10, 7, 4, 5, 9] 
>>> 


在 编写 执行 这 类 拆 分 功能 的 函数 时 ， 人 们 可 以 假设 这 是 为 了 实现 某 种 精巧 的 递归 算法 。 例 如 


>>> def sum(items): 
head, *tail = items 
return head + sum(tail) if tail else head 


>>> sum(items) 


36 
>>> 


但 是 请 注意 , 递归 真 的 不 算是 Python 的 强项 , 这 是 因为 其 内 在 的 递归 限制 所 致 。 因此， 
最 后 一 个 例子 在 实践 中 没 太 大 的 意义 ， 只 不 过 是 一 点 学 术 上 的 好 奇 罢了 。 


1.3 保存 最 后 N 个 元 素 


1.3.1 问题 
我 们 希望 在 迭代 或 是 其 他 形式 的 处 理 过程 中 对 最 后 几 项 记录 做 一 个 有 限 的 历史 记 
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录 统 计 。 


1.3.2 ”解决 方案 

















保存 有 限 的 历史 记录 可 算是 collections.deque 的 完美 应 用 场景 了 。 例 如 ， 下 面 的 代码 对 
一 系列 文本 行 做 简单 的 文本 匹配 操作 ， 当 发 现 有 匹配 时 就 输出 当前 的 匹配 行 以 及 最 后 








检查 过 的 N 行文 本 。 


from collections import deque 


def search(lines, pattern, history=5): 
previous_lines = deque(maxlen=history) 
for line in lines: 
if pattern in line: 
yield line, previous_lines 
previous_lines.append (line) 


# Example use on a file 


if _ name == '_main_': 





with open('somefile.txt') as f: 
for line, prevlines in search(f, 'python', 5): 
for pline in prevlines: 
print (pline, end='') 
print (line, end='') 
print ('-'*20) 


1.3.3 讨论 
如 同上 面 的 代码 片段 中 所 做 的 一 样 ， 当 编写 搜索 某 项 记录 的 代码 时 ， 通 党 























会 用 到 含有 


yield 关键 字 的 生成 器 函数 。 这 将 处 理 搜索 过 程 的 代码 和 使 用 搜索 结果 的 代码 成 功 解 看 














开 来 。 如 果 对 生成 器 还 不 熟悉 ， 请 参见 4.3 Wo 


deque(maxlen=N) 创 建 了 一 个 固定 长 度 的 队列 。 当 有 新 记录 加 入 而 队列 已 满 
除 最 老 的 那 条 记录 。 例 如 : 


>>> q = deque (maxlen=3) 








>>> q.append (1) 
>>> q.append (2) 
>>> q.append (3) 
>>> q 
deque ([1, 2, 3], maxlen=3) 
>>> g.append (4) 
>>> q 
deque([2, 3, 4], maxlen=3) 
>>> g.append (5) 





>>> q 














deque([3, 4, 5], maxlen=3) 


时 会 自动 移 





尽管 可 以 在 列表 上 和 手动 完成 这 样 的 操作 (append, del )， 但 队列 这 种 解决 方案 要 优雅 得 
多 ， 运 行 速度 也 快 得 多 。 

更 普遍 的 是 ， 当 需要 一 个 简单 的 队列 结构 时 ，deque 可 祝 你 一 臂 之 力 。 如 果 不 指 定 队列 
的 大 小 ， 也 就 得 到 了 一 个 无 界限 的 队列 ， 可 以 在 两 端 执行 添加 和 弹出 操作 ， 例 如 : 


>>> q = deque 





















































() 

>>> q.append(1) 

>>> q.append(2) 

>>> q.append (3) 

>>> q 

deque ([1, 2, 3]) 
>>> g.appendleft (4) 
>>> q 

deque([4, 1, 2, 3]) 
>>> g.pop () 

3 

>>> q 

deque([4, 1, 2]) 
>>> q.popleft () 

4 


从 队列 两 端 添 加 或 弹出 元 素 的 复杂 度 都 是 O(D)。 这 和 列表 不 同 ， 当 从 列表 的 头 部 插 人 
或 移 除 元 素 时 ， 列 表 的 复杂 度 为 O(N)。 




















1.4 找到 最 大 或 最 小 的 N 个 元 素 
1.4.1 ”问题 
我 们 想 在 某 个 集合 中 找 出 最 大 或 最 小 的 N 个 元 素 。 


1.4.2 ”解决 方案 
heapq 模块 中 有 两 个 函数 


import heapq 








nlargest() 和 nsmallest0 一 一 它们 正 是 我 们 所 需要 的 。 例 如 : 


nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print (heapq.nlargest (3, nums)) # Prints [42, 37, 23] 
print (heapq.nsmallest (3, nums)) # Prints [-4, 1, 2] 


这 两 个 函数 都 可 以 接受 一 个 参数 key, 从 而 允许 它们 工作 在 更 加 复杂 的 数据 结构 之 上 。 例如 : 


portfolio = [ 
{'name': 'IBM', 'shares': 100, 'price': 91.1}, 
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'name': 'AAPL', 'shares': 50, ‘price’: 543.22}, 
'name': 'FB', 'shares': 200, 'price': 21.09}, 
'name': 'HPQ', 'shares': 35, 'price': 31.75}, 
'name': 'YHOO', 'shares': 45, 'price': 16.35}, 
'name': 'ACME', 'shares': 75, 'price': 115.65} 


] 


cheap = heapq.nsmallest(3, portfolio, key=lambda s: s['price']) 
expensive = heapq.nlargest (3, portfolio, key=lambda s: s['price']) 


1.4.3 ”讨论 

如 果 正在 寻找 最 大 或 最 小 的 N 个 元 素 ， 且 同 集合 中 元 素 的 总 数目 相 比 ，N 很 小 ,那么 
下 面 这些 函 数 可 以 提供 更 好 的 性 能 。 这 些 函 数 首先 会 在 底层 将 数据 转化 成 列表 ， 上 元 
素 会 以 堆 的 顺序 排列 。 例 如 : 


>>> nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
>>> import heapq 











>>> heap = list (nums) 

>>> heapq.heapify (heap) 

>>> heap 

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8] 
>>> 




















堆 最 重要 的 特性 就 是 heap[0] 总 是 最 小 那个 的 元 素 。 此 外 ， 接 下 来 的 元 素 可 依次 通过 
heapq.heappop() 方 法 轻松 找到 。 该 方法 会 将 第 一 个 元 素 (最 小 的 ) 弹出 ， 然 后 以 第 二 小 
的 元 素 取而代之 (这 个 操作 的 复杂 度 是 O(logN), N 代表 堆 的 大 小 ), 例如 ,要 找到 第 3 
小 的 元 素 ， 可 以 这 样 做 : 


>>> heapq.heappop (heap) 
-4 
>>> heapq.heappop (heap) 
1 
>>> heapq.heappop (heap) 
2 


当 所 要 找 的 元 素数 量 相对 较 小 时 ， 函数 nlargest0 和 nsmallest() 才 是 最 适用 的 。 如 果 只 是 
简单 地 想 找 到 最 小 或 最 大 的 元 素 (N=1 AF), 那么 用 min0 和 max0 会 更 加 快 。 同 样 ， 如 
果 N 和 集合 本 身 的 大 小 差不多 大 ， 通常 更 快 的 方法 是 先 对 集合 排序 ， 然 后 做 切片 操作 
(例如 ， 使 用 sorted(items)[:N] 或 者 sorted(items)[-N:] )。 应 该 要 注意 的 是 ，nlargestO 和 
nsmallest() 的 实际 实现 会 根据 使 用 它们 的 方式 而 有 所 不 同 ， 可 能 会 相应 作出 一 些 优化 措 
施 (比如 ， 当 NN 的 大 小 同 输入 大 小 很 接近 时 ， 就 会 采用 排序 的 方法 )。 


使 用 本 节 的 代码 片段 并 不 需要 知道 如 何 实现 堆 数 据 结构 ， 但 这 仍然 是 一 个 有 趣 也 是 值 




























































































得 去 学 习 的 主题 。 通 常 在 优秀 的 算法 和 数据 结构 相关 的 书籍 里 都 能 找到 堆 数据 结构 的 
实现 方法 。 在 heapd 模块 的 文档 中 也 讨论 了 底层 实现 的 细节 。 











1.5 “实现 优先 级 队列 


1.5.1 问题 

我 们 想 要 实现 一 个 队列 ， 它 能 够 以 给 定 的 优先 级 来 对 元 素 排序 ， 且 每 次 pop 操作 时 都 
会 返回 优先 级 最 高 的 那个 元 素 。 

15.2 ”解决 方案 

下 面 的 类 利用 heapd 模块 实现 了 一 个 简单 的 优先 级 队列 : 


import heapq 





class PriorityQueue: 


def __init__(self): 
self._queue = [] 
self._index = 0 


def push(self, item, priority): 
heapq.heappush(self._queue, (-priority, self._index, item) ) 
self._index += 1 


def pop(self): 
return heapq.heappop(self._queue) [-1] 


下 面 是 如 何 使 用 这 个 类 的 例子 : 


>>> class Item: 
def _ init__(self, name): 
self.name = name 

















def _repr__(self): 
return 'Item({!r})'. format (self.name) 


>>> q = PriorityQueue () 
>>> q.push(Item('foo'), 1) 


>>> q.push(Item('bar'), 5) 


( (i / 
>>> q.push(Item('spam'), 4) 
>>> q.push(Item('grok'), 1) 
>>> gq. pop () 
Item('bar') 
>>> q.pop () 
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Item('spam') 
>>> q.pop () 
Item('foo') 
>>> q.pop () 
Item('grok') 
>>> 











请 注意 观察 ， 第 一 次 执行 pop0 操 作 时 返回 的 元 素 具 有 最 高 的 优先 级 。 我 们 也 观察 到 拥 
有 相同 优先 级 的 两 个 元 素 (foo 和 grok ) 返回 的 顺序 同 它们 插入 到 队列 时 的 顺序 相同 。 


1.5.3 ”讨论 


上 面 的 代码 片段 的 核心 在 于 heapq 模块 的 使 用 。 函 数 heapq.heappushO 以 及 
heapq.heappopO 分 别 实现 将 元 素 从 列表 _queue 中 插入 和 移 除 , 且 保证 列表 中 第 一 个 元 素 
的 优先 级 最 低 (如 1.4 节 所 述 )。heappop0 方 法 总 是 返回 “最 小 ”的 元 素 ， 因 此 这 就 是 
让 队列 能 弹出 正确 元 素 的 关键 。 此 外 ， 由 于 push 和 pop 操作 的 复杂 度 都 是 O(logN)， 
其 中 N 代表 堆 中 元 素 的 数量 ， 因 此 就 算 N 的 值 很 大 ， 这 些 操作 的 效率 也 非常 高 。 











在 这 段 代码 中 ， 队 列 以 元 组 (-priority, index, item) 的 形式 组 成 。 



































把 priority 取 负 值 是 为 了 


让 队列 能 够 按 元 素 的 优先 级 从 高 到 低 的 顺序 排列 。 这 和 正常 的 堆 排列 顺序 相反 ， 一般 





情况 下 堆 是 按 从 小 到 大 的 顺序 排序 的 。 











变量 index 的 作用 是 为 了 将 具有 相同 优先 级 的 元 素 以 适当 的 顺序 排列 。 通 过 维护 一 个 不 














断 递增 的 索引 ， 元 素 将 以 它们 入 队列 时 的 顺序 来 排列 。 但 是 ， 











级 的 元 素 间 做 比较 操作 时 同样 扮演 了 重要 的 角色 。 











index 在 对 具有 相同 优先 


为 了 说 明 Item 实例 是 没 法 进行 次 序 比 较 的 ， 我 们 来 看 下 面 这 个 例子 : 


>>> a = Item('foo') 
>>> b = Item('bar') 
>>> a<b 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unorderable types: Item() < Item() 
>>> 


如 果 以 元 组 (priority, item) 的 形式 来 表示 元 素 ， 那 么 只 要 优先 级 不 同 ， 它 们 就 可 以 进 
行 比较 。 但 是 ， 如 果 两 个 元 组 的 优先 级 值 相同 ， 做 比较 操作 时 还 是 会 像 之 前 那样 失 


败 。 例 如 : 


>>> a = (1, Item('foo')) 
>>> b = (5, Item('bar')) 
>>> a<b 

True 

>>> c = (1, Item('grok')) 








>> a < C 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: unorderable types: Item() < Item() 
>>> 





通过 引入 额外 的 索引 值 ， 以 (prioroty index, item) 的 方式 建立 元 组 , 就 可 以 完全 避免 这 个 
问题 。 因 为 没有 哪 两 个 元 组 会 有 相同 的 index 值 (一 旦 比较 操作 的 结果 可 以 确定 , Python 
就 不 会 再 去 比较 剩 下 的 元 组 元 素 了 ): 

>>> a = (1, 0, Item('foo')) 


>>> b = (5, 1, Item('bar')) 
>>> c = (1, 2, Item('grok')) 








>>> a<b 
True 
>> a < C 
True 
>>> 


如 果 想 将 这 个 队列 用 于 线程 间 通 信 ， 还 需要 增加 适当 的 锁 和 信号 机 制 。 请 参见 12.3 节 
的 示例 学 习 如 何 去 做 。 


关于 堆 的 理论 和 实现 在 heapq 模块 的 文档 中 有 着 详细 的 示例 和 相关 讨论 。 


1.6 在 字典 中 将 键 映 射 到 多 个 值 上 


1.6.1 问题 
我 们 想 要 一 个 能 将 键 (key ) 映射 到 多 个 值 的 字典 ( 即 所 请 的 一 键 多 值 字典 [multidict] )。 


16.2 ”解决 方案 
字典 是 一 种 关联 容器 ， 每 个 键 都 映射 到 一 个 单独 的 值 上 。 如 果 想 让 键 映射 到 多 个 值 ， 需 
要 将 这 多 个 值 保存 到 另 一 个 容器 如 列表 或 集合 中 。 例 如 ， 可 能 会 像 这 样 创建 字典 ， 





















































d={ 
NaS Us ls 256 a] 
bY [45 5] 


{ 
Vass le Dips hy 
b? : {4, 5} 











} 
要 使 用 列表 还 是 集合 完全 取决 于 应 用 的 意图 。 如 果 希 望 保留 元 素 插 入 的 顺序 ， 就 用 列 
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表 。 如 果 和 希望 消除 重复 元 素 〈 且 不 在 意 它 们 的 顺序 )， 就 用 集合 。 


了 Lees 的 字典 , 可 以 利用 collections 模块 中 的 defaultdict 2. defaultdict 
的 一 个 特点 就 是 它 会 自动 初始 化 第 一 个 值 ， 这 样 只 需 关 注 添 加 元 素 即 可 。 例 如 : 


from collections import defaultdict 








d = defaultdict (list) 
d['a'] .append(1) 
d['a'] .append(2) 
d['b'] .append (4) 


d = defaultdict (set) 


d['a'].add(1) 
d['a'].add(2) 


d['b'] .add(4) 











关于 defaultdict， 需 要 注意 的 一 个 地 方 是 ， 它 会 自动 创建 字典 表 项 以 待 稍 后 的 访问 ( 即 
使 这 些 表 项 当前 在 字典 中 还 没有 找到 ) 如果 不想 要 这 个 功能 ， 可 以 在 普通 的 字典 上 调 
用 setdefault0 方 法 来 取代 。 例 如 : 





d = {} # A regular dictionary 

d.setdefault('a', []).append(1) 
d.setdefault('a', []).append(2) 
d.setdefault('b', []).append(4) 





然而 ,许多 程序 员 觉 得 使 用 setdefault0 有 点 不 自然 一 一 更 别提 每 次 调用 它 时 都 会 创建 一 
个 初始 值 的 新 实例 了 (例子 中 的 空 列表 [] )。 


1.6.3 ”讨论 
原则 上 ， 构 建 一 个 一 键 多 值 字典 是 很 容易 的 。 但 是 如 果 试 着 自己 对 第 一 个 值 做 初始 化 
操作 ， 这 就 会 变 得 很 杂乱 。 例 如 ， 可 能 会 写 下 这 样 的 代码 ; 


d= {} 
for key, value in pairs: 











if key not in d: 
d[key] = [] 
d[key] .append (value) 


使 用 defaultdict 后 代码 会 清晰 得 多 : 


d = defaultdict (list) 
for key, value in pairs: 


d[key] . append (value) 








这 一 节 的 内 容 同 数据 处 理 中 的 记录 归 组 问题 有 很 强 的 关联 。 请 参见 1.15 节 的 示例 。 


1.7 让 字典 保持 有 序 


1.7.1 问题 
我 们 想 创建 一 个 字典 ， 同 时 当 对 字典 做 迭代 或 序列 化 操作 时 ， 也 能 控制 其 中 元 素 的 顺序 。 


1.7.2 解决 方案 
要 控制 字典 中 元 素 的 顺序 ， 可 以 使 用 collections 模块 中 的 OrderedDict 类 。 当 对 字典 做 
迭代 时 ， 它 会 严格 按照 元 素 初 始 添 加 的 顺序 进行 。 例 如 : 


from collections import OrderedDict 








d = OrderedDict () 





d['foo'] = 1 
d['bar'] = 2 
d['spam'] = 3 
d['grok'] = 4 


# Outputs "foo 1", "bar 2", "spam 3", "grok 4" 
for key in d: 
print (key, d[key]) 


当 想 构建 一 个 映射 结构 以 便 稍 后 对 其 做 序列 化 或 编码 成 男 一 种 格式 时 ，OrderedDict 就 
显得 特别 有 用 。 例如 ,如果 想 在 进行 ISON 编码 时 精确 控制 各 字段 的 顺序 , 那么 只 要 首 
先 在 OrderedDict 中 构建 数据 就 可 以 了 。 


>>> import json 









































>>> json.dumps (d) 
"{"foo": 1, "bar": 2, "spam": 3, "grok": 4}! 
>>> 


1.7.3 讨论 

OrderedDict 内 部 维护 了 一 个 双向 链表 ， 它 会 根据 元 素 加 入 的 顺序 来 排列 键 的 位 置 。 第 
一 个 新 加 入 的 元 素 被 放置 在 链表 的 末尾 。 接 下 来 对 已 存在 的 键 做 重新 赋值 不 会 改变 键 

的 顺序 。 

请 注意 OrderedDict 的 大 小 是 普通 字典 的 2 倍 多 ， 这 是 由 于 它 额外 创建 的 链表 所 致 。 因 


此 ， 如 果 打 算 构 建 一 个 涉及 大 量 OrderedDict 实例 的 数据 结构 (例如 从 CSV 文件 中 读 
HX 100000 行内 容 到 OrderedDict 列表 中 )， 那 么 需要 认真 对 应 用 做 需求 分 析 ， 从 而 判断 
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使 用 OrderedDict 所 带 来 的 好 处 是 否 能 超越 因 额 外 的 内 存 开销 所 带 来 的 缺点 。 


1.8 与 字典 有 关 的 计算 问题 
1.8.1 问题 
我 们 想 在 字典 上 对 数据 执行 各 式 各 样 的 计算 比如 求 最 小 值 、 最 大 值 、 排 序 


1.8.2 解决 方案 
假设 有 一 个 字典 在 股票 名 称 和 对 应 的 价格 间 做 了 映射 : 


prices = { 
"ACME': 45.23, 
'AAPL': 612.78, 
IBM”: 205.55, 
"HPQ': 37.20, 
'FB': 10.75 


序 等 )。 


} 
为 了 能 对 字典 内 容 做 些 有 用 的 计算 ,通常 会 利用 zip0 将 字典 的 键 和 值 反 转 过 来 。 例 如 ， 


下 面 的 代码 会 告诉 我 们 如 何 找 出 价格 最 低 和 最 高 的 股票 。 


min_price = min(zip(prices.values(), prices.keys())) 
# min_price is (10.75, 'FB') 


max_price = max(zip(prices.values(), prices.keys())) 
# max_price is (612.78, 'AAPL') 


同样 ， 要 对 数据 排序 只 要 使 用 zip0 再 配合 sorted0 就 可 以 了 ， 比 如 : 








prices_sorted = sorted(zip(prices.values(), prices.keys())) 
# prices_sorted is [(10.75, 'FB'), (37.2, 'HPQ'), 

# (45.23, 'ACME'), (205.55, 'IBM'), 

# (612.78, 'AAPL')] 


当 进行 这 些 计算 时 ， 请 注意 zip0 创 建 了 一 个 迭代 器 ， 它 的 内 容 只 能 被 消费 一 


下 面 的 代码 就 是 错误 的 : 


prices_and_names = zip(prices.values(), prices.keys()) 
print (min (prices_and_names) ) # OK 
print (max (prices_and_names) ) # ValueError: max() arg is an empty sequence 


1.8.3 ”讨论 





次 。 例 如 


如 果 尝 试 在 字典 上 执行 常见 的 数据 操作 ， 将 会 发 现 它 们 只 会 处 理 键 ， 而 不 是 值 。 例 如 : 





min (prices) # Returns 'AAPL' 


max (prices) # Returns 'IBM' 


这 很 可 能 不 是 我 们 所 期 望 的 ， 因 为 实际 上 我 们 是 尝试 对 字典 的 值 做 计算 。 可 以 利用 字 
典 的 values() 方 法 来 解决 这 个 问题 : 


min (prices.values()) # Returns 10.75 





max (prices.values()) # Returns 612.78 
不 幸 的 是 ， 通 常 这 也 不 是 我 们 所 期 望 的 。 比 如 ， 我 们 可 能 想 知道 相应 的 键 所 关联 的 信 
息 是 什么 (例如 哪 支 股票 的 价格 最 低 ? ) 
如 果 提 供 一 个 key 参数 传递 给 min0 和 max()， 就 能 得 到 最 大 值 和 最 小 值 所 对 应 的 键 是 
什么 。 例 如 : 


min(prices, key=lambda k: prices[k]) # Returns 'FB' 
max (prices, key=lambda k: prices[k]) # Returns 'AAPL' 


但 是 ， 要 得 到 最 小 值 的 话 ， 还 需要 额外 执行 一 次 查找 。 例 如 : 

min_value = prices [min (prices, key=lambda k: prices[k])] 
利用 了 zip0 的 解决 方案 是 通过 将 字典 的 键 - 值 对 “ 反 转 ”为 值 - 键 对 序列 来 解决 这 个 问 
题 的 。 
当 在 这 样 的 元 组 上 执行 比较 操作 时 ， 值 会 先进 行 比较 ， 然 后 才 是 键 。 这 完全 符合 我 们 
的 期 望 ， 人 允许 我 们 用 一 条 单独 的 语句 轻松 的 对 字典 里 的 内 容 做 整理 和 排序 。 
应 该 要 注意 的 是 ， 当 涉及 ( value,key ) 对 的 比较 时 ， 如 果 碰 巧 有 多 个 条 目 拥 有 相同 的 


value 值 ， 那 么 此 时 key 将 用 来 作为 判定 结果 的 依据 。 例 如 ， 在 计算 min0 和 maxO 时 ， 
如 果 碰 巧 value 的 值 相同 ， 则 将 返回 拥有 最 小 或 最 大 key 值 的 那个 条 目 。 示 例如 下 : 


>>> prices = { 'AAA' : 45.23, 'ZZZ': 45.23 } 




























































































>>> min(zip(prices.values(), prices.keys())) 
(45.23, 'AAA') 
>>> max(zip(prices.values(), prices.keys())) 
(45.23, 'ZZZ') 


>>> 


1.9 在 两 个 字典 中 寻找 相同 点 


1.9.1 问题 
有 两 个 字典 ， 我 们 想 找 出 它们 中 间 可 能 相同 的 地 方 ( 相同 的 键 、 相 同 的 值 等 )。 
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1.9.2 ”解决 方案 
考虑 如 下 两 个 字典 ; 





} 
要 找 出 这 两 个 字典 中 的 相同 之 处 , 只 需 通过 keys0) 或 者 items(0) 方 法 执行 常见 的 集合 操作 
即 可 。 例如 : 


# Find keys in common 


a.keys() & b.keys() # { 'x', 'y' } 


# Find keys in a that are not in b 
a.keys() - b.keys() # { 'z' } 





# Find (key,value) pairs in common 
a.items() & b.items() # { ('y', 2) } 


型 的 操作 也 可 用 来 修改 或 过 滤 掉 字典 中 的 内 容 。 例 如 ， 假 设想 创建 一 个 新 的 字 
tt， 其 中 会 去 掉 某 些 键 。 下 面 是 使 用 了 字典 推导 式 的 代码 示例 : 


# Make a new dictionary with certain keys removed 





























c= {key:a[key] for key in a.keys() - {'z', 'w'}} 
$c. isq R dy hye 2} 


1.9.3 讨论 

字典 就 是 一 系列 键 和 值 之 间 的 映射 集合 。 字 典 的 keys0 方 法 会 返回 keys-view WA, H 
中 暴露 了 所 有 的 键 。 关 于 字典 的 键 有 一 个 很 少 有 人 知道 的 特性 ， 那 就 是 它们 也 支持 常 
见 的 集合 操作 ， 比 如 求 并 集 、 交 集 和 差 集 。 因 此 ， 如 果 需 要 对 字典 的 键 做 常见 的 集合 
操作 ， 那 么 就 能 直接 使 用 keys-view 对 象 而 不 必 先 将 它们 转化 为 集合 。 


字典 的 items0 方 法 返回 由 (key,value) 对 组 成 的 items-view 对 象 。 这 个 对 象 支持 类 似 的 集 
合 操作 ， 可 用 来 完成 找 出 两 个 字典 间 有 哪些 键 值 对 有 相同 之 处 的 操作 。 

尽管 类 似 ， 但 字典 的 values() 方 法 并 不 支持 集合 操作 。 部 分 原因 是 因为 在 字典 中 键 和 值 
是 不 同 的 ， 从 值 的 角度 来 看 并 不 能 保证 所 有 的 值 都 是 唯一 的 。 单 这 一 条 原因 就 使 得 某 
































































































































些 特定 的 集合 操作 是 有 问题 的 。 但 是 ， 如 果 必 须 执行 这 样 的 操作 ， 还 是 可 以 先 将 值 转 
化 为 集合 来 实现 。 


1.10 ”从 序列 中 移 除 重复 项 且 保 持 元 素 间 顺序 不 变 


1.10.1 问题 
我 们 想 去 除 序列 中 出 现 的 重复 元 素 ， 但 仍然 保持 剩 下 的 元 素 顺序 不 变 。 


1.10.2 ”解决 方案 


如 果 序 列 中 的 值 是 可 险 希 ( hashable ) 的 ， 那 么 这 个 问题 可 以 通过 使 用 集合 和 生成 天 轻 
松 解决 。 示 例如 下 : 


def dedupe (items) : 














seen = set() 
for item in items: 
if item not in seen: 
yield item 


seen.add(item) 


这 里 是 如 何 使 用 这 个 函数 的 例子 : 


>>> a = [ly 5; 27 19, 1; 5p 10] 
>>> list (dedupe (a) ) 

[1, 5, 2, 9, 10] 

>>> 


























只 有 当 序 列 中 的 元 素 是 可 哈 希 的 时 候 才 能 这 么 做 。 如 果 想 在 不 可 哈 希 的 对 象 〈 比如 列 
表 ) 序列 中 去 除 重复 项 ， 需 要 对 上 述 代 人 码 稍 作 修改 : 


def dedupe (items, key=None): 
seen = set() 
for item in items: 
val = item if key is None else key (item) 
if val not in seen: 
yield item 


seen.add (val) 


这 里 参数 key 的 作用 是 指定 一 个 函数 用 来 将 序列 中 的 元 素 转换 为 可 哈 希 的 类 型 ， 这 人 么 
做 的 目的 是 为 了 检测 重复 项 。 它 可 以 像 这 样 工作 : 








= 
































”如 果 一 个 对 象 是 可 哈 希 的 ， 那 么 在 它 的 生存 期 内 必须 是 不 可 变 的 ， 它 需要 有 一 个 _hash_0 方 法。 
整数 、 浮 点 数 、 字 符 串 、 元 组 都 是 不 可 变 的 。 一 一 译 者 注 
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Sa PL Yr TR yy Ly TY 
>>> list (dedupe (a, key=lambda d: (d['x'],d['y']))) 


| 
>>> list (dedupe (a, key=lambda d: d['x'])) 
MR Tp ere Doe CS oD ge eA | 


>>> 


如 果 和 希望 在 一 个 较 复杂 的 数据 结构 中 ， 只 根据 对 象 的 某 个 字段 或 
那么 后 一 种 解决 方案 同样 能 完美 工作 。 


1.10.3 “讨论 
如 果 想 要 做 的 只 是 去 除 重复 项 ， 那 么 通常 足够 简单 的 办 法 就 是 构建 一 个 集合 。 例 如 : 
(Lye D2) bp Oy Ly: 5% :0 


>>> set (a) 
(Lp 2p 10 p< 5-93 














性 来 去 除 重 复 项 ， 


= 





























但 是 这 种 方法 不 能 保证 元 素 间 的 顺序 不 变 ， 因 此 得 到 的 结果 会 被 打 乱 。 前 面 展 示 的 解 
决 方案 可 避免 出 现 这 个 问题 。 

本 节 中 对 生成 器 的 使 用 反映 出 一 个 事实 ， 那 就 是 我 们 可 能 会 希望 这 个 函数 尽 可 能 的 通 
用 ee ee 如 果 想 读 一 个 文件 ， 去 除 其 中 重复 的 


with open(somefile,'r') as f: 



































for line in dedupe(f): 





我 们 的 dedupe( PARLE FA eR sorted(), minQLAR max0 对 key 函数 的 使 用 方 
式 。 例 子 可 参考 1.8 节 和 1.13 节 。 


1.41 对 切片 命名 


1.11.1 joa 
我 们 的 代码 已 经 变 得 无 法 阅读 ， 到 处 都 是 硬 编 码 的 切片 索引 ， 我 们 想 将 它们 清理 干净 。 


1.11.2 ”解决 方案 
假设 有 一 些 代 码 用 来 从 字符 串 的 固定 位 置 中 取出 具体 的 数据 ( 比如 从 一 个 平面 文件 或 











”集合 的 特点 就 是 集合 中 的 元 素 都 是 唯一 的 ， 但 不 保证 它们 之 间 的 顺序 。 一 一 译 者 注 














类 似 的 格式 ) ”: 


Ht ttt 0123456789012345678901234567890123456789012345678901234567890' 


cost = int (record[20:32]) * float (record[40:48]) 


与 其 这 样 做 ， 为 什么 不 对 切片 命名 呢 ? 


SHARES = slice (20,32) 
PRICE = slice (40,48) 


cost = int(record[SHARES]) * float (record[PRICE] ) 


在 后 一 种 版 本 中 ， 由 于 避免 了 使 用 许多 神秘 难 懂 的 便 编 码 索 引 ， 我 们 的 代码 就 变 得 清 
晰 了 许多 。 


1.11.3 ”讨论 

作为 一 条 基本 准则 ， 代 码 中 如 果 有 很 多 便 编 码 的 索引 值 ， 将 导致 可 读 性 和 可 维护 性 都 不 
佳 。 例 如 ， 如 果 一 年 以 后 再 回 过 头 来 看 代码 ， 你 会 发 现 自己 很 想 知道 当初 编写 这 些 代码 
时 自己 在 想 些 什么 。 前 面 展示 的 方法 可 以 让 我 们 对 代码 的 功能 有 着 更 加 清晰 的 认识 。 
一 般 来 说 , 内 置 的 slice0 函 数 会 创建 一 个 切片 对 象 , 可 以 用 在 任何 允许 进行 切片 操作 的 
地 方 。 例如 : 


>>> items = [0, 1, 2, 3, 4, 5, 6] 
>>> a = slice(2, 4) 
>>> items[2:4] 

23) 

>>> items[a] 

27-3) 

>>> items[a] = [10,11] 
>>> items 

0, 1, 10, 11, 4, 5, 6] 
>>> del items [a] 

>>> items 

0, 1, 4, 5, 6] 



















































































如 果 有 一 个 slice 对 象 的 实例 s, 可 以 分 别 通过 s.start, s.stop 以 及 s.step 属性 来 得 到 关于 
该 对 象 的 信息 。 例 如 : 


>>> a = slice( 
>>> a.start 
10 


>>> a.stop 

















”平面 文件 (flat file) 是 一 种 包含 没有 相对 关系 结构 的 记录 文件 。 一 一 译 者 注 
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50 

>>> a.step 
2 

>>> 


此 外 ， 可 以 通过 使 用 indices(size) 方 法 将 切片 映射 到 特定 大 小 的 序列 上 。 这 会 返回 一 个 
(start, stop, step) 元 组 ， 所 有 的 值 都 已 经 恰当 地 限制 在 边界 以 内 ( 当做 索引 操作 时 可 避免 
出 现 IndexError 异常 )。 例 如 : 





>>> s = 'HelloWorld' 

>>> a.indices (len (s)) 

(5, 10, 2) 

>>> for i in range(*a.indices(len(s))): 
. print (s[i]) 


1.12 找 出 序列 中 出 现 次 数 最 多 的 元 素 


1.12.1 问题 
我 们 有 一 个 元 素 序列 ， 想 知道 在 序列 中 出 现 次 数 最 多 的 元 素 是 什么 。 


1.12.2 ”解决 方案 
collections 模块 中 的 Counter 类 正 是 为 此 类 问题 所 设计 的 。 它 甚至 有 一 个 非常 方便 的 
most_common() 方 法 可 以 直接 告诉 我 们 答案 。 
为 了 说 明 用 法 ,假设 有 一 个 列表 ， 列表 中 是 一 系列 的 单词 ， 我 们 想 找 出 哪些 单词 出 现 
的 最 为 频繁 。 下 面 是 我 们 的 做 法 : 
words = [ 
"look', 'into', 'my', 'eyes', 'look', ‘into', 'my', 'eyes', 


'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not', ‘around’, 'the', 
'eyes', "don't", 'look', 'around', 'the', 'eyes', 'look', ‘into', 



































'my', 'eyes', "you're", 'under' 


] 


from collections import Counter 

word_counts = Counter (words) 

top_three = word_counts.most_common (3) 

print (top_three) 

# Outputs [('eyes', 8), ('the', 5), ('look', 4)] 
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1.12.3 iit 


可 以 给 Counter 对 象 提供 任何 可 哈 希 的 对 象 序列 作为 输入 。 在 底层 实现 中 ，Counter 是 
一 个 字 上 由 ， 在 元 素 和 它们 出 现 的 次 数 间 做 了 映射 。 例 如 : 


>>> word_counts['not'] 
1 

>>> word_counts['eyes'] 
8 

>>> 


如 果 想 手动 增加 计数 ， 只 需 简单 地 上 自 增 即 可 : 


>>> morewords = ['why','are','you', 'not','looking','in','my', 'eyes'] 
>>> for word in morewords: 


. word_counts[word] += 1 


>>> word_counts['eyes'] 
9 
>>> 





另 一 种 方式 是 使 用 update() 方 法 。 


>>> word_counts.update (morewords) 
>>> 




















关于 Counter 对 象 有 一 个 不 为 人 知 的 特性 , 那 就 是 它们 可 以 轻松 地 同 各 种 数学 运算 操作 
结合 起 来 使 用 。 例 如 : 


>>> a = Counter (words) 

>>> b = Counter (morewords) 

>>> a 

Counter({'eyes': 8, 'the': 5, 'look': 4, ‘into': 3, 'my': 3, 'around': 2, 
"you're": 1, "don't": 1, 'under': 1, 'not': 1}) 

>>> b 

Counter({'eyes': 1, 'looking': 1, 'are': 1, 'in': 1, 'not': 1, 'you': 1, 
'my': 1, 'why': 1}) 


>>> # Combine counts 

>>> c=athb 

>>> c 

Counter({'eyes': 9, 'the': 5, 'look': 4, 'my': 4, 'into': 3, 'not': 2, 
"around': 2, "you're": 1, "don't": 1, ‘'in': 1, 'why': 1, 
‘looking': 1, 'are': 1, 'under': 1, 'you': 1}) 


>>> # Subtract counts 


>>> d=a-b 
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>>> d 

Counter({'eyes': 7, 'the': 5, 'look': 4, 'into': 3, 'my': 2, ‘around’: 2, 
"you're": 1, "don't": 1, 'under': 1}) 

>>> 


从 








不 用 说 ， 当 面 对 任 何 需要 对 数据 制 表 或 计数 的 问题 时 ，Counter 对 象 都 是 你 手边 的 得 力 
工具 。 比 起 利用 字典 自己 手写 算法 ， 更 应 该 采用 这 种 方式 完成 任务 。 











1.13 通过 公共 键 对 字典 列表 排序 


1.13.1 问题 
我 们 有 一 个 字典 列表 ， 想 根据 一 个 或 多 个 字典 中 的 值 来 对 列表 排序 。 


1.13.2 ”解决 方案 


利用 operator 模块 中 的 itemgetter 函数 对 这 类 结构 进行 排序 是 非常 简单 的 。 假 设 通 过 查 
询 数据 库 表 项 获取 网 站 上 的 成 员 列 表 ， 我 们 得 到 了 如 下 的 数据 结构 : 

















rows = [ 
{'fname': 'Brian', 'lname': 'Jones', 'uid': 1003}, 
{'fname': 'David', 'lname': 'Beazley', 'uid': 1002}, 
{'fname': 'John', 'Iname': 'Cleese', 'uid': 1001}, 
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004} 




















根据 所 有 的 字典 中 共有 的 字段 来 对 这 些 记录 排序 是 非常 简单 的 ， 示 例如 下 : 


from operator import itemgetter 


rows_by_fname = sorted(rows, key=itemgetter('fname') ) 
rows_by_uid = sorted(rows, key=itemgetter('uid')) 


print (rows_by_fname) 
print (rows_by_uid) 











以 上 代码 的 输出 为 : 

[{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}, 
"fname': 'Brian', 'uid': 1003, 'lname': 'Jones'}, 
"fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
"fname': 'John', 'uid': 1001, 'lname': 'Cleese'}] 

[{'fname': 'John', 'uid': 1001, 'lname': 'Cleese'}, 
"fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
"fname': 'Brian', 'uid': 1003, 'lname': 'Jones'}, 

{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}] 
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itemgetter() 函 数 还 可 以 接受 多 个 键 。 例 如 下 面 这 段 代码 : 


rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname') ) 


print (rows_by_1lfname) 


这 会 产生 如 下 的 输出 : 


[{'fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
{'fname': 'John', 'uid': 1001, 'lname': 'Cleese'}, 
{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}, 
{'fname': 'Brian', 'uid': 1003, 'lname': 'Jones'}] 


1.13.3 ”讨论 





在 这 个 例子 中 ，rows 被 传递 给 内 建 的 sorted0 函 数 ， 该 函数 接受 一 个 关键 字 参 数 key。 这 
个 参数 应 该 代表 一 个 可 调用 对 象 (callable )， 该 对 象 从 rows 中 接受 一 个 单独 的 元 素 作 为 
输入 并 返回 一 个 用 来 做 排序 依据 的 值 。itemgetter0 函 数 创建 的 就 是 这 样 一 个 可 调用 对 象 。 


函数 operator.itemgett 





er() 接 受 的 参数 可 作为 查询 的 标记 , 用 来 从 rows 的 记录 中 提取 出 








所 需要 的 值 。 它 可 以 是 字典 的 键 名 称 、 用 数字 表示 的 列表 元 素 或 是 任何 可 以 传 给 对 象 
的 _getitem 0 方法 的 值 。 如 果 传 多 个 标记 给 itemgetter()， 那 么 它 产生 的 可 调用 对 象 
将 返回 一 个 包含 所 有 元 素 在 内 的 元 组 ， 然 后 sorted0 将 根据 对 元 组 的 排序 结果 来 排列 




















输出 结果 。 如 果 想 同 
有 用 的 。 








时 针对 多 个 字段 做 排序 〈 比如 例子 中 的 姓 和 名 )， 那 么 这 是 非常 


有 时 候 会 用 lambda 表达 式 来 取代 itemgetter0 的 功能 。 例 如 : 


rows_by_fname = sorted(rows, key=lambda r: r['fname']) 
rows_by_lfname = sorted(rows, key=lambda r: (r['lname'],r['fname']) ) 


























这 种 解决 方案 通常 也 能 正常 工作 。 但 是 用 itemgetter0 通 常会 运行 得 更 快 一 些 。 因 此 如 




















果 需 要 考虑 性 能 问题 的 话 ， 应 该 使 用 itemgetter()。 





最 后 不 要 忘 了 本 节 中 所 展示 的 技术 同样 适用 于 min0 和 max0 这 样 的 函数 。 例 如 : 


>>> min(rows, key=itemgetter ('uid') 








{'fname': 'John', 'lname': 'Cleese', 'uid': 1001} 
>>> max (rows, key=itemgetter ('uid') 
{'fname': 'Big', 'lname': 'Jones', 'uid': 1004} 


>>> 


1.14 ”对 不 原生 支持 比较 操作 的 对 和 象 排序 


1.14.1 问题 








我 们 想 在 同一 个 类 的 实例 之 间 做 排序 ， 但 是 它们 并 不 原生 支持 比较 操作 。 








数据 结构 和 算法 23 


1.14.2 ”解决 方案 


内 建 的 sorted() 函 数 可 接受 一 个 用 来 传递 可 调用 对 象 ( callable ) 的 参数 key, miZ 
可 调用 对 象 会 返回 待 排 序 对 象 中 的 某 些 值 ，sorted 则 利用 这 些 值 来 比较 对 象 。 例 
如 ， 如 果 应 用 中 有 一 系列 的 User 对 象 实 例 ， 而 我 们 想 通 过 userid 属性 来 对 它们 
排序 ， 则 可 以 提供 一 个 可 调用 对 象 将 User 实例 作为 输入 然后 返回 user_id。 示 例 
如 下 : 


>>> class User: 














def _ init__(self, user_id): 
self.user_id = user_id 
def _repr__ (self): 


return 'User({})'.format (self.user_id) 


>>> users = [User(23), User(3), User (99) ] 
>>> users 

[User (23), User(3), User (99) ] 

>>> sorted(users, key=lambda u: u.user_id) 
[User (3), User(23), User (99) ] 


>>> 


除了 可 以 用 lambda 表达 式 外 ， 另 一 种 方式 是 使 用 operator.attrgetter()。 





>>> from operator import attrgetter 

>>> sorted(users, key=attrgetter('user_id')) 
[User (3), User(23), User (99) ] 

>>> 


1.14.3 ”讨论 


要 使 用 lambda 表达 式 还 是 attrgetter0 或 许 只 是 一 种 个 人 喜好 。 但 是 通常 来 说 ，attrgetter0 要 
更 快 一 些 , 而 且 具 有 人 允许 同时 提取 多 个 字段 值 的 能 力 。 这 和 针对 字典 的 operator.itemgetter() 
的 使 用 很 类 似 (参见 1.13 节 )。 例如， 如 果 User 实例 还 有 一 个 first_name 和 last_name 
属性 的 话 ， 可 以 执行 如 下 的 排序 操作 : 


by_name = sorted(users, key=attrgetter('last_name', 'first_name')) 


同样 值得 一 提 的 是 ， 本 节 所 用 到 的 技术 也 适用 于 像 min0 和 max0 这 样 的 函数 。 例 如 : 


>>> min(users, key=attrgetter('user_id') 
User (3) 



























































>>> max(users, key=attrgetter('user_id') 
User (99) 
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1.15 ”根据 字段 将 记录 分 组 


1.15.1 


问题 


有 一 系列 的 字典 或 对 象 实例 , 我 们 想 根据 某 个 特定 的 字段 ( 比如 说 日 期 ) 来 分 组 迭代 数据 。 


1.15.2 


解决 方案 





itertools.groupbyO 了 因数 在 对 数据 进行 分 组 时 特别 有 用 。 为 了 说 明 其 用 途 ， 假设 有 如 下 的 


字典 列表 : 


rows = [ 


{'address!: 
{'address!: 
{'address!: 
{'address!: 
{'address!: 
{'address!: 
{'address!: 
{'address': 


] 























'5412 N CLARK', 'date': '07/01/2012'}, 
"5148 N CLARK', 'date': '07/04/2012'}, 
"5800 E 58TH', 'date': '07/02/2012'}, 

"2122 N CLARK', 'date': '07/03/2012'}, 
'5645 N RAVENSWOOD', 'date': '07/02/2012'}, 
'1060 W ADDISON', 'date': '07/02/2012"}, 
"4801 N BROADWAY', 'date': '07/01/2012'}, 
'1039 W GRANVILLE', 'date': '07/04/2012'}, 


现在 假设 想 根 据 日 期 以 分 组 的 方式 迭代 数据 。 要 做 到 这 些 ， 首 先 以 目标 字段 (在 这 个 


例子 中 是 date ) 来 对 序列 排序 ， 然 后 再 使 用 itertools.groupby() . 





from operator import itemgetter 


from itertools import groupby 


# Sort by the desired field first 


rows. sort (key=itemgetter ('date') ) 


# Iterate in groups 





for date, items in groupby(rows, key=itemgetter('date')): 


print (date) 
for i in items: 
print(' ', i) 
这 会 产生 如 下 的 输出 : 
07/01/2012 
{'date': '07/01/2012', 
{'date': '07/01/2012', 
07/02/2012 
{'date': '07/02/2012', 


'address': 
‘address!: 


‘address!: 


"5412 N CLARK'} 
"4801 N BROADWAY'} 


"5800 E 58TH'} 
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{'date': '07/02/2012', 'address': '5645 N RAVENSWOOD'} 
{'date': '07/02/2012', 'address': '1060 W ADDISON'} 
07/03/2012 
{'date': '07/03/2012', '‘address': '2122 N CLARK'} 
07/04/2012 
{'date': '07/04/2012', '‘address': '5148 N CLARK'} 
{'date': '07/04/2012', '‘address': '1039 W GRANVILLE" } 


1.15.3 讨论 
函数 groupby0 通 过 扫描 序列 找 出 拥有 相同 值 (或 是 由 参数 key 指定 的 函数 所 返回 的 值 ) 
的 序列 项 ， 并 将 它们 分 组 。groupby0 创 建 了 一 个 迭代 器 ， 而 在 每 次 迭代 时 都 会 返回 一 
“MEL (value ) 和 一 个 子 迭 代 器 (sub_iterator )， 这 个 子 迭 代 器 可 以 产生 所 有 在 该 分 组 内 
具有 该 值 的 项 。 
在 这 里 重要 的 是 首先 要 根据 感 兴趣 的 字段 对 数据 进行 排序 。 因 为 groupbyO 只 能 检查 连 
续 的 项 ， 不 首先 排序 的 话 ， 将 无 法 按 所 想 的 方式 来 对 记录 分 组 。 
如 果 只 是 简单 地 根据 日 期 将 数据 分 组 到 一 起 ， 放 进 一 个 大 的 数据 结构 中 以 允许 进行 随 
机 访问 ， 那 么 利用 defaultdict0 构 建 一 个 一 键 多 值 字典 ( multidict， 见 1.6 节 ) 可 能 会 更 
好 。 例如 : 

from collections import defaultdict 


rows_by_date = defaultdict (list) 


for row in rows: 
































rows_by_date[row['date']]. append (row) 


这 使 得 我 们 可 以 方便 地 访问 每 个 日 期 的 记录 ， 如 下 所 示 : 


>>> for r in rows_by_date['07/01/2012']: 
print (r) 


{'date': '07/01/2012', 'address': '5412 N CLARK'} 
{'date': '07/01/2012', 'address': '4801 N BROADWAY'} 
>> 








对 于 后 面 这 个 例子 ， 我 们 并 不 需要 先 对 记录 做 排序 。 因 此 ， 如 果 不 考虑 内 存 方面 的 因 
素 ， 这 种 方式 会 比 先 排序 再 用 groupby0 和 迭代 要 来 的 更 快 。 


























1.16 ”筛选 序列 中 的 元 素 


1.16.1 问题 
序列 中 含有 一 些 数据 ， 我 们 需要 提取 出 其 中 的 值 或 根据 某 些 标准 对 序列 做 删 减 。 








26 第 1 章 


1.16.2 ”解决 方案 





要 筛选 序列 中 的 数据 ， 通 常 最 简单 的 方法 是 使 用 列表 推导 式 〈list comprehension ). fii 


如 : 


>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 
>>> [n for n in mylist if n > 0] 

[le 4; 20y 27 3] 

>>> [n for n in mylist if n < 0] 

Spy =T =l] 

>>> 





使 用 列表 推导 式 的 一 个 潜在 缺点 是 如 果 原 始 输入 非常 大 的 话 ， 这 么 做 可 能 会 产生 一 个 





庞大 的 结果 。 如 果 这 是 你 需要 考虑 的 问题 ， 








式 产生 筛选 的 结果 。 例 如 : 


>>> pos = (n for n in mylist if n > 0) 


>>> pos 


<generator object <genexpr> at 0x1006a0eb0> 


>>> for x in pos: 


print (x) 


那么 可 以 使 用 生成 器 表达 式 通过 迭代 的 方 





有 时 候 筛选 的 标准 没 法 简单 地 表示 在 列表 推导 式 或 生成 咒 表 达 式 中 。 比 如 ， 假 设 筛选 
过 程 涉及 异常 处 理 或 者 其 他 一 些 复杂 的 细节 。 基 于 此 ， 可 以 将 处 理 筛选 逻辑 的 代码 放 


到 单独 的 函数 中 ， 然 后 使 用 内 建 的 fter(0) 函 数 处 理 。 





values = ['l', 


def is_int(val): 
try: 
x = int (val) 
return True 
except ValueError: 
return False 


ivals = list(filter(is_int, values) ) 
print (ivals) 
# Outputs ['1', 


'N/A', 





示例 如 下 : 


not 
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filterO) 创 建 了 一 个 迭代 器 , 因此 如 果 我 们 想 要 的 是 列表 形式 的 结果 , 请 确保 加 上 了 listo, 


就 像 示 例 中 那样。 
1.16.3 iit 








Bil Bea SP SAVE RIERA Fe FI i eH find Ae ELT UE, È 
们 也 具有 同时 对 数据 做 转换 的 能 力 。 例 如 : 


>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 





>>> import math 


>>> [math.sqrt(n) for n in mylist if n > 0] 
[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772] 


>>> 











关于 筛选 数据 ， 有 一 种 情况 是 用 新 值 替 换 掉 不 满足 标准 的 值 ， 而 不 是 丢弃 它们 。 例 如 ， 
除了 要 找到 正 整数 之 外 ， 我 们 也 许 还 希望 在 指定 的 范围 内 将 不 满足 要 求 的 值 蔡 换 掉 。 











通常 ， 这 可 以 通过 将 筛选 条 件 移 到 一 个 条 件 表 达 式 中 来 轻松 实现 。 就 像 下 面 这 样 : 


>>> clip_neg = [n if n > 0 else 0 for n in mylist] 


>>> clip_neg 


{1, 4, 0, 10, 0, 2, 3, 0] 
>>> clip_pos = [n if n < 0 else 0 for n in mylist] 


>>> clip_pos 


(0, 0, -5, 0, Ty 0, 0, -1) 


>>> 





另 一 个 值得 一 提 的 筛选 工具 是 itertools.compress0 ， 它 接受 一 个 可 迭代 对 象 以 及 一 个 布 


尔 选择 器 序列 作为 输入 。 











痊 出 时 ， 它 会 给 出 所 有 在 相应 的 布尔 选择 带 中 为 True 的 可 过 











代 对 象 元 素 。 如 果 想 把 对 





个 序列 的 筛选 结果 施加 到 另 一 个 相关 的 序列 上 时 ， 这 就 会 


非常 有 用 。 例 如 ， 假 设 有 以 下 两 列 数据 : 





addresses = [ 
"5412 N CLARK’, 
"5148 N CLARK', 
"5800 E 58TH', 
"2122 N CLARK' 
'5645 N RAVENSWOOD', 
'1060 W ADDISON', 
"4801 N BROADWAY', 
'1039 W GRANVILLE’, 








] 


counts = [ 0, 3, 10, 4, 1, 7, 6, 1] 


现在 我 们 想 构建 一 个 地 址 列表 ， 其 中 相应 的 count 值 要 大 于 5。 下 面 是 我 们 可 以 尝试 的 
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方法 : 
>>> from itertools import compress 
>>> more5 = [n > 5 for n in counts] 
>>> mored 
[False, False, True, False, False, True, True, False] 
>>> list (compress (addresses, more5) ) 
['5800 E 58TH', '4801 N BROADWAY', '1039 W GRANVILLE'] 
>>> 


这 里 的 关键 在 于 首先 创建 一 个 布尔 序列 ， 用 来 表示 哪个 元 素 可 满足 我 们 的 条 件 。 然 后 
compress() 函 数 挑选 出 满足 布尔 值 为 True 的 相应 元 素 。 


同 filter0 函 数 一 样 ， 正 常情 况 下 compress0 会 返回 一 个 迭代 器 。 因 此 ， 如 果 需 要 的 话 ， 
得 使 用 list0 将 结果 转 为 列表 。 


1.17 ”从 字典 中 提取 子 集 


1.17.1 ”问题 
我 们 想 创建 一 个 字典 ， 其 本 身 是 另 一 个 字典 的 子 集 。 


1.17.2 解决 方案 
利用 字典 推 必 式 ( dictionary comprehension ) 可 轻松 解决 。 例 如 : 


prices = { 
"ACME': 45.23, 
"AAPL': 612.78, 
































'IBM': 205.55, 
"HPQ': 37.20, 
'FB': 10.75 


# Make a dictionary of all prices over 200 
pl = { key:value for key, value in prices.items() if value > 200 } 


# Make a dictionary of tech stocks 
tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:value for key,value in prices.items() if key in tech_names } 


1.17.3 ”讨论 
PAP A LI FS SMH SR PERCY UE FT USL OETA PAI EMME dict 
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数 来 完成 。 例 如 : 
pl = dict((key, value) for key, value in prices.items() if value > 200) 
但 是 字典 推导 式 的 方案 更 加 清晰 ， 而 且 实际 和 运行 起 来 也 要 快 很 多 ( 以 本 例 中 的 字典 
prices 来 测试 ， 效 率 要 高 2 倍 多 )。 
有 时 候 会 有 多 种 方法 来 完成 同一 件 事情 。 例 如 ， 第 二 个 例子 还 可 以 重 写成 : 


# Make a dictionary of tech stocks 
tech names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:prices[key] for key in prices.keys() & tech_names } 


但 是 ， 计 时 测试 表明 这 种 解决 方案 几乎 要 比 第 一 种 慢 上 1.6 倍 。 如 果 需 要 考虑 性 能 因 


ZB, 那么 通常 都 需要 花 一 点 时 间 来 研究 它 。 有 关 计 时 和 性 能 分 析 方 面 的 信息 ,请 参见 
14.13 节 。 











1.18 ”将 名 称 映 射 到 序列 的 元 素 中 


1.18.1 问题 

我 们 的 代码 是 通过 位 置 〈 即 索引 ， 或 下 标 ) 来 访问 列表 或 元 组 的 ， 但 有 时 候 这 会 使 代 
码 变 得 有 些 难以 阅读 。 我 们 希望 可 以 通过 名 称 来 访问 元 素 ， 以 此 减少 结构 中 对 位 置 的 
依赖 性 。 


1.18.2 ”解决 方案 

相 比 普通 的 元 组 ，collections.namedtupleO (命名 元 组 ) 只 增加 了 极 小 的 开销 就 提供 了 这 
些 便利 。 实 际 上 collections.namedtuple0 是 一 个 工厂 方法 ， 它 返回 的 是 Python 中 标准 元 
组 类 型 的 子 类 。 我 们 提供 给 它 一 个 类 型 名 称 以 及 相应 的 字段 ， 它 就 返回 一 个 可 实例 化 
的 类 、 为 你 已 经 定义 好 的 字段 传人 值 等 。 例 如 : 


>>> from collections import namedtuple 









































>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined']) 
>>> sub = Subscriber('jonesy@example.com', '2012-10-19') 
>>> sub 


Subscriber (addr='jonesy@example.com', joined='2012-10-19') 
>>> sub.addr 

"jonesy@example.com' 

>>> sub. joined 

"2012-10-19! 

>>> 


尽管 namedtuple 的 实例 看 起 来 就 像 一 个 普通 的 类 实例 , 但 它 的 实例 与 普通 的 元 组 是 可 互 换 


























的 ， 而 且 支 持 所 有 普通 元 组 所 支持 的 操作 ， 例 如 索引 (indexing ) 和 分 解 (unpacking )。 
比如 : 


>>> len (sub) 

2 

>>> addr, joined = sub 
>>> addr 
"jJonesy@example.com' 
>>> joined 
"2012-10-19! 

>>> 














8 4 UA AY EEE ATE PSE ee a OR SL A, HA, UR OH 
调用 中 得 到 一 个 大 型 的 元 组 列表 ， 而 且 通 过 元 素 的 位 置 来 访问 数据 ， 那 么 假如 在 表单 
中 新 增 了 一 列 数据 ， 那 么 代码 就 会 骨 演 。 但 如 果 首 先 将 返回 的 元 组 转型 为 命名 元 组 ， 
就 不 会 出 现 问 题 。 

为 了 说 明 这 个 问题 ,下面 有 一 些 使 用 普通 元 组 的 代码 : 


def compute_cost (records): 
total = 0.0 
for rec in records: 
total += rec[1] * rec[2] 
return total 























通过 位 置 来 引用 元 素 常常 使 得 代码 的 表达 力 不 够 强 ， 而 且 也 很 依赖 于 记录 的 具体 结构 。 
下 面 是 使 用 命名 元 组 的 版 本 : 


from collections import namedtuple 














Stock = namedtuple('Stock', ['name', 'shares', 'price']) 
def compute_cost (records) : 
total = 0.0 
for rec in records: 
s = Stock (*rec) 
total += s.shares * s.price 
return total 


当然 ， 如 果 示例 中 的 records 序列 已 经 包含 了 这 样 的 实例 ， 那 么 可 以 避免 显 式 地 将 记录 
转换 为 Stock 命名 元 组 ”。 


1.18.3 ”讨论 
namedtuple 的 一 种 可 能 用 法 是 作为 字典 的 替代 , 后 者 需要 更 多 的 空间 来 存储 。 因 此 , 如 




















”作者 的 意思 是 如 果 records 中 的 元 素 是 某 个 类 的 实例 ， 且 已 经 有 了 shares 和 price 这 样 的 属性 ， 那 就 可 以 
直接 通过 属性 名 来 访问 ， 不 需要 通过 位 置 来 引用 ， 也 就 没有 必要 再 转换 成 命名 元 组 了 。 一 一 译 者 注 
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果 要 构建 涉及 字典 的 大 型 数据 结构 ， 使 用 namedtuple 会 更 加 高 效 。 但 是 请 注 ; 
典 不 同 的 是 ，namedtuple 是 不 可 变 的 ( immutable )。 例 如 : 


>>> s = Stock('ACME', 100, 123.45) 

>>> s 

Stock (name='ACME', shares=100, price=123.45) 
>>> s.shares = 75 





Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 
>>> 





意 ， 与 字 


如 果 需 要 修改 任何 属性 ， 可 以 通过 使 用 namedtuple 实例 的 _replace() 方 法 来 实现 。 该 方 





法 会 创建 一 个 全 新 的 命名 元 组 ， 并 对 相应 的 值 做 蔡 换 。 示 例如 下 : 


>>> s = s._replace(shares=75) 

>> s 

Stock (name='ACME', shares=75, price=123.45) 
>>> 




















_replace() 方 法 有 一 个 微妙 的 用 途 ， 那 就 是 它 可 以 作为 一 种 简便 的 方法 填充 具有 可 选 或 
缺失 字段 的 命名 元 组 。 要 做 到 这 点 ， 首 先 创建 一 个 包含 默认 值 的 “原型 ”元 组 ， 然 后 








使 用 _replace() 方 法 创建 一 个 新 的 实例 ， 把 相应 的 值 蔡 换 掉 。 示 例如 下 : 


from collections import namedtuple 
Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 'time']) 


# Create a prototype instance 
stock_prototype = Stock('', 0, 0.0, None, None) 


# Function to convert a dictionary to a Stock 
def dict_to_stock(s): 
return stock_prototype._replace(**s) 


让 我 们 演示 一 下 上 面 的 代码 是 如 何 工作 的 : 


>>> a = {'name': 'ACME', 'shares': 100, 'price': 123.45} 














>>> dict_to_stock (a) 
Stock (name='ACME', shares=100, price=123.45, date=None, time=None) 

>>> b = {'name': 'ACME', 'shares': 100, 'price': 123.45, 'date': '12/17/2012'} 
>>> dict_to_stock (b) 

Stock (name='ACME', shares=100, price=123.45, date='12/17/2012', time=None) 

>> 









































最 后 ， 也 是 相当 重要 的 是 ， 应 该 要 注意 如 果 我 们 的 目标 是 定义 一 个 高 效 的 数据 结构 ， 
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而 且 将 来 会 修改 各 种 实例 属性 ， 那 么 使 用 namedtuple 并 不 是 最 佳 选 择 。 相 反 ， 可 以 考 
虑 定义 一 个 使 用 _slots_ 属性 的 类 (参见 8.4 节 )。 


1.19 同时 对 数据 做 转换 和 换算 


1.19.1 问题 


我 们 需要 调用 一 个 换算 (reduction ) 函数 ( 例如 sum0 、min0 、max0O )， 但 首先 得 对 数 
据 做 转换 或 筛选 。 


1.19.2 解决 方案 
有 一 种 非常 优雅 的 方式 能 将 数据 换算 和 转换 结合 在 一 起 一 一 在 函数 参数 中 使 用 生成 器 
表达 式 。 例 如 ， 如 果 想 计算 平方 和 ， 可 以 像 下 面 这 样 做 : 


nums = [1, 2, 3, 4, 5] 


s = sum(x * x for x in nums) 


这 里 还 有 一 些 其 他 的 例子 : 


# Determine if any .py files exist in a directory 











import os 

files = os.listdir('dirname') 

if any(name.endswith('.py') for name in files): 
print ('There be python!') 

else: 
print ('Sorry, no python.') 


# Output a tuple as CSV 
s = ('ACME', 50, 123.45) 
print(','.join(str(x) for x in s)) 


# Data reduction across fields of a data structure 
portfolio = [ 

{'name':'GOOG', 'shares': 50}, 

{'name':'YHOO', 'shares': 75}, 

{'name':'AOL', 'shares': 20}, 

{'name':'SCOX', 'shares': 65} 
] 


min_shares = min(s['shares'] for s in portfolio) 


1.19.3 ”讨论 
这 种 解决 方案 展示 了 当 把 生成 器 表达 式 作为 函数 的 单独 参数 时 在 语法 上 的 一 些微 妙 之 
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处 CBI, 不必 重复 使 用 括号 )。 比 如 ， 下 面 这 两 行 代码 表示 的 是 同一 个 意思 : 


s = sum((x * x for x in nums)) # Pass generator-expr as argument 


s = sum(x * x for x in nums) # More elegant syntax 
比 起 首先 创建 一 个 临时 的 列表 ， 使 用 生成 器 做 参数 通常 是 更 为 高 效 和 优雅 的 方式 。 例 
如 ， 如 果 不 使 用 生成 器 表达 式 ， 可 能 会 考虑 下 面 这 种 实现 : 


nums = [1, 2, 3, 4, 5] 


s = sum([x * x for x in nums]) 
































这 也 能 工作 ， 但 这 引入 了 一 个 额外 的 步骤 而 且 创建 了 额外 的 列表 。 对 于 这 人 么 小 的 一 个 
列表 , 这 根本 就 无 关 紧 要 , 但 是 如 果 nums 非常 巨大 , 那么 就 会 创建 一 个 庞大 的 临时 数 
据 结 构 ， 而 且 只 用 一 次 就 要 丢弃 。 基 于 生成 右 的 解决 方案 可 以 以 迄 代 的 方式 转换 数据 ， 
因此 在 内 存 使 用 上 要 高 效 得 多 。 

某 些 特定 的 换算 函数 比如 min0 和 max0 都 可 接受 一 个 key 参数 ， 当 可 能 倾向 于 使 用 生 
成 器 时 会 很 有 帮助 。 例 如 在 portfolio 的 例子 中 ， 也 许 会 考虑 下 面 这 种 替代 方案 : 


# Original: Returns 20 




















min_shares = min(s['shares'] for s in portfolio) 


# Alternative: Returns {'name': 'AOL', 'shares': 20} 
min_shares = min (portfolio, key=lambda s: s['shares']) 


1.20 将 多 个 映射 合并 为 单个 映射 


1.20.1 问题 


我 们 有 多 个 字典 或 映射 ， 想 在 逻辑 上 将 它们 合并 为 一 个 单独 的 映射 结构 ， 以 此 执行 某 
些 特定 的 操作 ， 比 如 查找 值 或 检查 键 是 否 存 在 。 


1.20.2 ”解决 方案 

















假设 有 两 个 字典 : 
站 
b= {'y': 2, 'z': 4 } 











现在 假设 想 执 行 查 找 操作 ， 我 们 必须 得 检查 这 两 个 字典 ( 例如 ， 先 在 a 中 查找 ， 如 果 
没 找到 再 去 b 中 查找 )。 一 种 简单 的 方法 是 利用 collections 模块 中 的 ChainMap 类 来 解 
决 这 个 问题 。 例 如 : 


from collections import ChainMap 























c = ChainMap (a,b) 
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print(c['x']) # Outputs 1 (from a) 
print(c['y']) # Outputs 2 (from b) 
print (c['z']) # Outputs 3 (from a) 


1.20.3 讨论 
ChainMap 可 接受 多 个 映射 然后 在 逻辑 上 使 它们 表现 为 一 个 单独 的 映射 结构 。 但 是 ， 这 
些 映 射 在 字面 上 并 不 会 合并 在 一 起 。 相 反 ，ChainMap 只 是 简单 地 维护 一 个 记录 底层 映 
射 关 系 的 列表 ， 然 后 重 定义 常见 的 字典 操作 来 扫描 这 个 列表 。 大 部 分 的 操作 都 能 正常 
工作 。 例 如 : 

>>> len(c) 


3 
>>> list (c.keys()) 

















[Ky a ae FAR 

>>> list (c.values()) 
[1, 2, 3] 

>> 


如 果 有 重复 的 键 ， 那 么 这 里 会 采用 第 一 个 映射 中 所 对 应 的 值 。 因 此 ， 例 子 中 的 c['z"] 总 
是 引用 字典 a 中 的 值 ， 而 不 是 字典 b 中 的 值 。 


修改 映射 的 操作 总 是 会 作用 在 列 出 的 第 一 个 映射 结构 上 。 例 如 : 


>>> c['z'] = 10 








>>> c['w'] = 40 
>>> del c['x'] 
>>> a 
{'w': 40, 'z': 10} 
>>> del c['y'] 





Traceback (most recent call last): 


KeyError: "Key not found in the first mapping: 'y'" 
>>> 

















ChainMap 与 带 有 作用 域 的 值 ， 比 如 编程 语言 中 的 变量 〈 即 全 局 变量 、 局 部 变量 等 ) 
起 工作 时 特别 有 用 。 实 际 上 这 里 有 一 些 方法 使 这 个 过 程 变 得 简单 : 


>>> Values = ChainMap () 


























>>> values['x'] = 1 

>>> # Add a new mapping 

>>> values = values.new_child() 
>>> values['x'] = 2 

>>> # Add a new mapping 

>>> values = values.new_child() 











>>> values['x'] = 3 
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作为 ChainMap 的 替代 方案 ， 我 们 可 能 会 考虑 利用 字典 的 update0 方 法 将 多 个 字典 


>>> va 
ChainMap ({'x 
>>> va 


>>> va 
ChainMap ({'x 


>>> 


ues 
te Shy 
ues['x'] 


{'x!': 


# Discard last mapping 


values = 


values.parents 


values['x'] 


# Discard last mapping 


values = values.parents 


values['x'] 





ues 
'; 1}) 


在 一 起 。 例 如 : 


y 


这 么 
yl 


FNS 


而 ChainMap 使 用 的 就 是 原始 的 字典 , 因此 它 不 会 产生 这 种 令 人 不 


>>> 


a 
b 


= {'x!': ls WAR 


= {'y': 2, 1 


A CD 


Z 
z's 


merged = dict (b) 


merged. update (a) 
merged['x"] 


merged['y'] 


merged['z"] 


做 生 行 得 通 ， 但 这 需要 单独 构建 一 个 


这 就 破坏 了 原始 数据 )。 此 外 ， 如 果 其 中 任何 一 个 
不 会 反应 到 合并 后 的 字典 中 。 例 如 : 








>>> a['x'] = 13 


>>> merged['x'] 


1 


>>> 


a 
b 


merged = 
merged['x' 


al 


merged['x' 


合并 


完整 的 字典 对 象 ( 或 者 修改 其 中 现 有 的 一 个 字 





原始 字 








= {'x': 
= {'y': 2, "o's: 4 } 
ChainMap (a, b) 


'x'] = 42 





# Notice change to merged dicts 


典 做 了 修改 ， 这 个 改变 都 





悦 的 行为 。 示 例如 下 : 
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无 论 是 解析 数据 还 是 产生 输出 ， 几 乎 每 一 个 有 实用 价值 的 程序 都 会 涉及 某 种 形式 的 文 
本 处 理 。 本 章 的 重点 放 在 有 关 文 本 操作 的 常见 问题 上 ， 例 如 拆 分 字符 串 、 搜 索 、 替 换 、 
词法 分 析 以 及 解析 。 许 多 任务 都 可 以 通过 内 建 的 字符 串 方 法 轻松 解决 。 但 是 ， 更 复杂 
的 操作 可 能 会 需要 用 到 正则 表达 式 或 者 创建 完整 的 解析 需 才 能 得 到 解决 。 以 上 所 有 主 
题 本 章 都 有 涵盖 。 此 外 ， 本 章 还 提 到 了 一 些 同 Unicode 打交道 时 用 到 的 技巧 。 


2.1 针对 任意 多 的 分 隔 符 拆 分 字符 串 


2.1.1 问题 

我 们 需要 将 字符 串 拆 分 为 不 同 的 字段 ， 但 是 分 隔 符 (以 及 分 隔 符 之 间 的 空格 ) 在 整个 
字符 串 中 并 不 一 致 。 

2.1.2 解决 方案 

字符 串 对 象 的 split0 方 法 只 能 处 理 非常 简单 的 情况 ,而 且 不 支持 多 个 分 隔 符 ,对 分 隔 符 
周围 可 能 存在 的 空格 也 无 能 为 力 。 当 需要 一 些 更 为 灵活 的 功能 时 ， 应 该 使 用 re.split() 
FE: 



































a 


>>> line = 'asdf fjdk; afed, fjek,asdf, foo! 
>>> import re 

>>> re.split(r'[;,\s]\s*', line) 

['asdf£', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] 


2.1.3 讨论 
resplitO) 是 很 有 用 的 ， 因 为 可 以 为 分 隔 符 指定 多 个 模式 。 例 如 ， 在 上 面 的 解决 方案 中 ， 
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分 隔 符 可 以 是 逗号 、 分 号 或 者 是 空格 符 ( 后面 可 跟着 任意 数量 的 额外 空格 )。 只 要 找到 
了 对 应 的 模式 ， 无 论 匹 配点 的 两 端 是 什么 字段 ， 整 个 匹配 的 结果 就 成 为 那个 分 隔 符 。 
最 终 得 到 的 结果 是 字段 列表 ， 同 str.split0 得 到 的 结果 一 样 。 

当 使 用 re.split0 时 ， 需 要 小 心 正则 表达 式 模式 中 的 捕获 组 (capture group) 是 否 包含 在 
了 括号 中 。 如 果 用 到 了 捕获 组 ， 那 么 匹配 的 文本 也 会 包含 在 最 终结 果 中 。 比 如 ， 看 看 
下 面 的 结果 : 


>>> fields = re.split(r'(;|,|\s)\s*', line) 

































































>>> fields 
['asdf', 1 D 'fjdk', Ea 'afed', aA 'fjek', Mel ‘asdf', rary 'foo'] 
>>> 


在 特定 的 上 下 文中 获取 到 分 隔 字 符 也 可 能 是 有 用 的 。 例 如 ， 也 许 稍 后 要 用 到 分 隔 字 符 
来 改进 字符 串 的 输出 : 


>>> values = fields[::2] 

>>> delimiters = fields[1::2] + [''] 

>>> values 

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] 
>>> delimiters 


lee ed Arm Ta SA 
ror roof hoor Foon 























>>> # Reform the line using the same delimiters 


>>> ''.join(vtid for v,d in zip(values, delimiters) ) 
‘asdf fjdk;afed, fjek,asdf,foo' 
>>> 





pr 





如 果 不 想 在 结果 中 看 到 分 隔 字 符 ， 但 仍然 想 用 括号 来 对 正则 表达 式 模式 进行 分 组 ， 请 
确保 用 的 是 非 捕获 组 ， 以 (2?:…) 的 形式 指定 。 示 例如 下 : 

>>> re.split(r'(?:,1;/\s)\s*', line) 

['asdf','fjdk', 'afed', 'fjek', 'asdf','foo'] 


>>> 


2.2 ”在 字符 串 的 开头 或 结尾 处 做 文本 匹配 


2.2.1 问题 

我 们 需要 在 字符 串 的 开头 或 结尾 处 按照 指定 的 文本 模式 做 检查 ， 例 如 检查 文件 的 扩展 
名 、URL 协议 类 型 等 。 

2.2.2 解决 方案 

有 一 种 简单 的 方法 可 用 来 检查 字符 串 的 开头 或 结尾 ， 只 要 使 用 strstartswithO 和 
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strendswith() 方 法 就 可 以 了 。 示 例如 下 : 


>>> filename = 'spam.txt' 

>>> filename.endswith('.txt') 
True 
>>> filename.startswith('file:') 





False 

>>> url = 'http://www.python.org' 
>>> url.startswith('http:') 

True 

>>> 


如 果 需 要 同时 针对 多 个 选项 做 检查 ， 只 需 给 startswith() 和 endswithO 提 供 包含 可 能 选项 
的 元 组 即 可 : 


>>> import os 

>>> filenames = os.listdir('.') 

>>> filenames 

[ 'Makefile', 'foo.c', 'bar.py', 'spam.c', 'spam.h' ] 

>>> [name for name in filenames if name.endswith(('.c', '.h')) ] 
['foo.c', 'spam.c', 'spam.h' 

>>> any(name.endswith('.py') for name in filenames) 

True 

>>> 


这 里 有 男 一 个 例子 : 


from urllib.request import urlopen 


def read data (name) : 
if name.startswith(('http:', 'https:', 'ftp:')): 
return urlopen (name) .read() 
else: 
with open(name) as f: 
return f.read() 




















奇怪 的 是 ， 这 是 Python 中 需要 把 元 组 当成 输入 的 一 个 地 方 。 如 果 我 们 刚好 把 选项 指定 
在 了 列表 或 集合 中 ， 请 确保 首先 用 tople0 将 它们 转换 成 元 组 。 示 例如 下 : 


>>> choices = ['http:', 'ftp:'] 
>>> url = 'http://www.python.org' 
>>> url.startswith (choices) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: startswith first arg must be str or a tuple of str, not list 
>>> url.startswith (tuple (choices) ) 
True 
>>> 





FEMXA 39 


th 
a 


2.2.3 讨论 
startswith() 和 endswith() 方 法 提供 了 一 种 非常 方便 的 方式 来 对 字符 串 的 前 级 和 后 级 做 基 
本 的 检查 。 类 似 的 操作 也 可 以 用 切片 来 完成 ， 但 是 那 种 方案 不 够 优雅 。 例 如 ; 

















>>> filename = 'spam.txt' 
>>> filename[-4:] == '.txt' 
True 


>>> url = 'http://www.python.org' 

>>> url[:5] == 'http:' or url[:6] == 'https:' or url[:4] == 'ftp:' 
True 

>>> 


可 能 我 们 也 比较 倾向 于 使 用 正则 表达 式 作 为 替代 方案 。 例 如 : 


>>> import re 





>>> url = 'http://www.python.org' 

>>> re.match('http:|https:|ftp:', url) 
<_sre.SRE Match object at 0x101253098> 
>>> 











这 也 行 得 通 ， 但 是 通常 对 于 简单 的 匹配 来 说 有 些 过 于 重量 级 了 。 使 用 本 节 提 到 的 技术 
会 更 简单 ， 运 行 得 也 更 快 。 

最 后 但 同样 重要 的 是 ， 当 startswith() All endswith0 方 法 和 其 他 操作 ( 比如 常见 的 数据 整 
理 操作 ) 结合 起 来 时 效果 也 很 好 。 例 如 ， 下 面 的 语句 检查 目录 中 有 无 出 现 特定 的 文件 : 


if any (name.endswith(('.c', '.h')) forname in listdir (dirname) ): 
































2.3 利用 Shell 通配符 做 字符 串 匹 配 


2.3.1 问题 


当 工 作 在 UNIX Shell 下 时 ,我 们 想 使 用 常见 的 通配符 模式 ( 即 ，*.py、Dat[0-9]*.csv 
等 ) 来 对 文本 做 匹配 。 


2.3.2 ”解决 方案 


fnmatch 模块 提供 了 两 个 函数 一 一 fnmatch() 和 fnmatchcase() 
配 。 使 用 起 来 很 简单 : 


>>> from fnmatch import fnmatch, fnmatchcase 
>>> fnmatch('foo.txt', '*.txt') 


























可 用 来 执行 这 样 的 匹 
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>>> fnmatch('foo.txt', '?00.txt') 

True 

>>> fnmatch('Dat45.csv', 'Dat[0-9]*"') 

True 

>>> names = ['Datl.csv', 'Dat2.csv', 'config.ini', 'foo.py'] 
>>> [name for name in names if fnmatch (name, 'Dat*.csv') ] 
['Datl.csv', 'Dat2.csv'] 

>>> 


一 般 来 说 ，fnmatchO 的 匹配 模式 所 采用 的 大 小 写 区 分 规则 和 底层 文件 系统 相同 〈 根据 
操作 系统 的 不 同 而 有 所 不 同 )。 例 如 : 


>>> # On OS X (Mac) 
>>> fnmatch('foo.txt', '*.TXT') 
False 


>>> # On Windows 

>>> fnmatch('foo.txt', '*.TXT') 
True 

>>> 











如 果 这 个 区 别 对 我 们 而 言 很 重要 , 就 应 该 使 用 fnmatchcase()。 它 完全 根据 我 们 提供 的 大 
小 写 方式 来 匹配 : 


>>> fnmatchcase('foo.txt', '*.TXT') 


|3 


False 
>>> 


关于 这 些 函 数 ， 一 个 常 被 忽略 的 特性 是 它们 在 处 理 非 文件 名 式 的 字符 串 时 的 潜在 用 途 。 
例如 ， 假 设 有 一 组 街道 地 址 ， 就 像 这 样 : 
addresses = [ 
'5412 N CLARK ST', 


N 
"1060 W ADDISON ST', 
"1039 W GRANVILLE AVE', 
N 
N 





'2122 N CLARK ST', 
'4802 N BROADWAY’, 
] 


可 以 像 下 面 这 样 写 列表 推导 式 : 


>>> from fnmatch import fnmatchcase 

>>> [addr for addr in addresses if fnmatchcase(addr, '* ST')] 

['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST'] 

>>> [addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*') ] 
['5412 N CLARK ST'] 

>>> 





T 
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2.3.3 讨论 

fnmatch 所 完成 的 匹配 操作 有 点 介 平 于 简单 的 字符 串 方 法 和 全 功能 的 正则 表达 式 之 间 。 
如 果 只 是 试 着 在 处 理 数据 时 提供 一 种 简单 的 机 制 以 允许 使 用 通配符 ， 那么 通常 这 都 是 
个 合理 的 解决 方案 。 

如 果实 际 上 是 想 编写 匹配 文件 名 的 代码 ， 那 应 该 使 用 glob 模块 来 完成 ， 请 参见 
5.13 节 。 




















2.4 文本 模式 的 匹配 和 查找 


2.4.1 问题 
我 们 想 要 按照 特定 的 文本 模式 进行 匹配 或 查找 。 
2.4.2 解决 方案 


如 果 想 要 匹配 的 只 是 简单 的 文字 ， 那 么 通常 只 需要 用 基本 的 字符 串 方法 就 可 以 了 ， 比 
如 str.find() 、str.endswith() 、strstartswith0) 或 类 似 的 函数 。 示 例如 下 : 


























>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> # Exact match 
>>> text == 'yeah' 
False 


>>> # Match at start or end 
>>> text.startswith('yeah') 
True 

>>> text.endswith('no') 


False 


>>> # Search for the location of the first occurrence 
>>> text.find('no') 

10 

>>> 





对 于 更 为 复杂 的 匹配 则 需要 使 用 正则 表达 式 以 及 re 模块 。 为 了 说 明 使 用 正则 表达 式 的 
基本 流程 ， 假 设 我 们 想 匹 配 以 数字 形式 构成 的 日 期 ， 比 如 “11/27/2012”。 示 例如 下 : 
>>> textl = '11/27/2012' 


>>> text2 = 'Nov 27, 2012! 
>>> 














>>> import re 
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>>> # Simple matching: \d+ means match one or more digits 
>>> if re.match(r'\d+/\d+/\d+', textl): 
print ('yes') 
. else: 
print ('no') 


yes 
>>> if re.match(r'\d+/\d+/\d+', text2): 
print ('yes') 
. else: 
. print ('no') 


no 
>>> 


如 果 打 算 针 对 同一 种 模式 做 多 次 匹配 ， 那 么 通常 会 先 将 正则 表达 式 模式 预 编译 成 一 个 
模式 对 象 。 例 如 : 


>>> datepat = re.compile(r'\d+/\d+/\d+') 
>>> if datepat.match(textl): 








fanny 


print ('yes') 
. else: 
print('no') 


yes 
>>> if datepat.match(text2) : 
print ('yes') 
. else: 
print ('no') 


no 
>>> 





match() 方 法 总 是 尝试 在 字符 串 的 开头 找到 匹配 项 。 如 果 想 针对 整个 文本 搜索 出 所 有 的 
匹配 项 ， 那 么 就 应 该 使 用 findall0 方 法 。 例 如 : 
>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013." 
>>> datepat.findall (text) 


['11/27/2012', '3/13/2013"] 
>>> 


当 定义 正则 表达 式 时 ， 我 们 常会 将 部 分 模式 用 括号 包 起 来 的 方式 引入 捕获 组 。 例 如 : 


>>> datepat = re.compile(r' (\dt+) /(\d+) / (\d+) ') 
>>> 

















捕获 组 通常 能 简化 后 续 对 匹配 文本 的 处 理 ， 因 为 每 个 组 的 内 容 都 可 以 单独 提取 出 来 。 
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例如 : 


>>> m = datepat.match('11/27/2012') 


>>> m 


<_sre.SRE Match object at 0x1005d2750> 
>>> # Extract the contents of each group 
>>> m.group (0) 

'11/27/2012' 

>>> m.group (1) 

"1! 

>>> m.group (2) 

197! 

>>> m.group (3) 

'2012' 

>>> m.groups () 

(EIT 2G T2072") 

>>> month, day, year = m.groups () 

>>> 


>>> # Find all matches (notice splitting into tuples) 

>>> text 

‘Today is 11/27/2012. PyCon starts 3/13/2013.!' 

>>> datepat.findall (text) 

TTI TQ 20122) 3 M13 2 03) 

>>> for month, day, year in datepat.findall (text): 
print ('{}-{}-{}'.format(year, month, day)) 


2012-11-27 
2013-3-13 
>>> 


findall0 方 法 搜索 整个 文本 并 找 出 所 有 的 匹配 项 然后 将 它们 以 列表 的 形式 返回 。 如 果 想 
DAE ER DOA, ATLA BEF finditer0 方 法 。 示 例如 下 : 


>>> for m in datepat.finditer (text): 








print (m.groups ()) 


人 
(303 
>>> 


2.43 讨论 
有 关 正 则 表达 式 的 基本 理论 教学 超出 了 本 书 的 范 








mm 


at 





目 。 但 是 ， 本 节 向 您 展示 了 利用 re 模 
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块 来 对 文本 做 匹配 和 搜索 的 基础 。 基 本 功能 是 首先 用 re.compileO 对 模式 进行 编译 ， 然 
后 使 用 像 match() 、findall0 或 finditerO 这 样 的 方法 做 匹配 和 搜索 。 
当 指 定 模 式 时 我 们 通常 会 使 用 原始 字符 串 ， 比 如 rQd+)/Qd+)/Qd+)'。 这 样 的 字符 串 不 会 
对 反 斜 线 字 符 转 义 ， 这 在 正则 表达 式 上 下 文中 会 很 有 有用。 否则 ， 我 们 需要 用 双 反 斜 线 
来 表示 一 个 单独 的 NV， 例如 'Q(Md+)/Qd+)/Q\d+)'。 
请 注意 match() 方 法 只 会 检查 字符 串 的 开头 。 有 可 能 出 现 匹 配 的 结果 并 不 是 你 想 要 的 情 
Alo 例如 : 

>>> m = datepat.match('11/27/2012abcdef') 

<_sre.SRE Match object at 0x1005d27e8> 

>>> m.group () 


"11/27/2012!" 
>>> 


如 果 想 要 精确 匹配 ， 请 确保 在 模式 中 包含 一 个 结束 标记 〈$ )， 示 例如 下 : 


>>> datepat = re.compile(r' (\d+) /(\d+) /(\d+)$"') 
>>> datepat.match('11/27/2012abcdef' 

>>> datepat.match('11/27/2012') 

<_sre.SRE Match object at 0x1005d2750> 

>>> 


最 后 ， 如 果 只 是 想 执行 简单 的 文本 匹配 和 搜索 操作 ， 通 常 可 以 省 略 编译 步骤 ， 直 接 使 
用 re 模块 中 的 函数 即 可 。 例 如 : 


>>> re.findall(r' (\d+)/(\d+)/(\dt)', text) 
Lee pe Re QOL 2 “(UB ote. EZOL34 hi] 
>>> 


请 注意 ， 如 果 打 算 执行 很 多 匹配 或 查找 操作 的 话 ， 通 常 需要 先 将 模式 编译 然后 再 重复 
使 用 。 模 块 级 的 函数 会 对 最 近 编 译 过 的 模式 做 缓存 处 理 ， 因 此 这 里 并 不 会 有 巨大 的 性 
能 差异 。 但 是 使 用 自己 编译 过 的 模式 会 省 下 一 些 查 找 步 骤 和 额外 的 处 理 。 


25 ”查找 和 替换 文本 
2.5.1 问题 
我 们 想 对 字符 串 中 的 文本 做 查找 和 替换 。 


2.5.2 ”解决 方案 
对 于 简单 的 文本 模式 ， 使 用 strreplaceO 即 可 。 例 如 : 
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>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> text.replace('yeah', 'yep') 
"yep, but no, but yep, but no, but yep' 
>>> 





针对 更 为 复杂 的 模式 ,可 以 使 用 re 模块 中 的 sub0) 函 数 /方法 。 为 了 说 明 如 何 使 用 , 假设 


我 们 想 把 日 期 格式 从 “11/27/2012” 改 写 为 “2012-11-27”。 示 例如 下 : 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013.， 
>>> import re 

>>> re.sub(r' (\d+)/(\d+) /(\dt)', r'\3-\1-\2"', text) 
"Today is 2012-11-27. PyCon starts 2013-3-13.' 

>>> 


sub0 的 第 1 个 参数 是 要 匹配 的 模式 , 第 2 个 参数 是 要 替换 上 的 模式 。 
斜 线 加 数字 的 符号 代表 着 模式 中 捕获 组 的 数量 。 


























类 似 “\3” 这 样 的 反 


如 果 打 算 用 相同 的 模式 执行 重复 替换 ， 可 以 考虑 先 将 模式 编译 以 获得 更 好 的 性 能 。 示 














例如 下 : 


>>> import re 

>>> datepat = re.compile(r! (\d+) /(\d+)/(\dt)"') 
>>> datepat.sub(r'\3-\1-\2"', text) 

"Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> 


对 于 更 加 复杂 的 情况 ， 可 以 指定 一 个 替换 回调 函数 。 示 例如 下 : 


>>> from calendar import month abbr 
>>> def change date (m): 
mon name = month abbr[int(m.group(1))] 
return '{} {} {}'.format(m.group(2), mon_name, m.group (3) 


>>> datepat.sub(change date, text) 
"Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' 
>>> 


替换 回调 函数 的 输入 参数 是 一 个 匹配 对 象 ， 由 match0 或 find0 返 回 


提取 匹配 中 特定 的 部 分 。 这 个 函数 应 该 返回 替换 后 的 文本 。 





O 月 





.group0 〇 方法 来 





除了 得 到 替换 后 的 文本 外 ， 如 果 还 想 知 道 一 共 完 成 了 多 少 次 替换 ， 可 以 使 用 re.subn0。 





例如 : 


>>> newtext, n = datepat.subn(r'\3-\1-\2', text) 
>>> newtext 
"Today is 2012-11-27. PyCon starts 2013-3-13.' 
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2.5.3 讨论 

除了 以 上 展示 的 sub0 调 用 之 外 ， 关 于 正则 表达 式 的 查找 和 替换 并 没有 什么 更 多 可 说 的 
了 。 最 有 技巧 性 的 地 方 在 于 指定 正则 表达 式 模式 一 一 这 个 最 好 还 是 留 给 读者 自己 去 练 
AIE, 








2.6 ”以 不 区 分 大 小 写 的 方式 对 文本 做 查找 和 替换 


2.6.1 问题 
我 们 需要 以 不 区 分 大 小 写 的 方式 在 文本 中 进行 查找 ， 可 能 还 需要 做 替换 。 
2.6.2 ”解决 方案 


要 进行 不 区 分 大 小 写 的 文本 操作 ， 我 们 需要 使 用 re 模块 并 且 对 各 种 操作 都 要 加 上 
re. IGNORECASE 标记 。 例 如 : 




















>>> text = 'UPPER PYTHON, lower python, Mixed Python' 
>>> re.findall('python', text, flags=re.IGNORECASE) 
['PYTHON', 'python', 'Python'] 

>>> re.sub('python', 'snake', text, flags=re.IGNORECASE) 
"UPPER snake, lower snake, Mixed snake' 

>>> 


上 面 这 个 例子 揭示 出 了 一 种 局 限 ,， 那 就 是 待 替 换 的 文本 与 匹配 的 文本 大 小 写 并 不 吻合 。 
如 果 想 修正 这 个 问题 ,需要 用 到 一 个 支撑 函数 ( support function )， 示 例如 下 : 


def matchcase (word): 

















def replace (m): 

text = m.group() 

if text.isupper(): 
return word.upper () 

elif text.islower(): 
return word. lower () 

elif text[0].isupper(): 
return word.capitalize() 

else: 
return word 

return replace 








下 面 是 使 用 这 个 函数 的 例子 : 
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>>> re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE) 
‘UPPER SNAKE, lower snake, Mixed Snake' 
>>> 


2.6.3 ”讨论 

对 于 简单 的 情况 , 只 需 加 上 re IGNORECASE 标记 就 足以 进行 不 区 分 大 小 写 的 匹配 操作 
了 。 但 请 注意 的 是 这 对 于 某 些 涉及 大 写 转 换 (case folding ) 的 Unicode 匹配 来 说 可 能 是 
不 够 的 。 具 体 细节 请 参见 2.10 节 。 























2.7 ”定义 实现 最 短 匹配 的 正则 表达 式 


2.7.1 问题 

我 们 正在 尝试 用 正则 表达 式 对 文本 模式 做 匹配 ， 但 识别 出 来 的 是 最 长 的 可 能 匹配 。 相 
反 ， 我 们 想 将 其 修改 为 找 出 最 短 的 可 能 匹配 。 

2.7.2 解决 方案 


这 个 问题 通常 会 在 匹配 的 文本 被 一 对 开始 和 结束 分 隔 符 包 起 来 的 时 候 出 现 〈 例如 带 引 
号 的 字符 串 )。 为 了 说 明 这 个 问题 ， 请 看 下 面 的 例子 : 


>>> str pat = re.compile(r'\"(.*)\"') 


























>>> textl = 'Computer says "no."' 

>>> str_pat.findall (textl) 

['no.'] 

>>> text2 = 'Computer says "no." Phone says "yes."' 
>>> str_pat.findall (text2) 

['no." Phone says "yes.'] 

>> 


在 这 个 例子 中 ， 模 式 mV(.*)V" 尝 试 去 匹配 包含 在 引号 中 的 文本 。 但 是 ，* 操 作 符 在 正则 
表达 式 中 采用 的 是 贪心 策略 ， 所 以 匹配 过 程 是 基于 找 出 最 长 的 可 能 匹配 来 进行 的 。 因 
此 ,在 text2 的 例子 中 ， 它 错误 地 匹配 成 2 个 被 引号 包围 的 字符 串 。 

要 解决 这 个 问题 ， 只 要 在 模式 中 的 * 操 作 符 后 加 上 ? 修饰 符 就 可 以 了 。 示 例如 下 : 


>>> str pat = re.compile(r'\"(.*?)\"') 
>>> str pat.fingdall (text2) 









































['no.', 'yes."] 
>>> 








这 么 做 使 得 匹配 过 程 不 会 以 贪心 方式 进行 ， 也 就 会 产生 出 最 短 的 匹配 了 。 
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2.7.3 讨论 

本 节 提 到 了 一 个 当 编写 含有 句点 (. ) 字符 的 正则 表达 式 时 常会 遇 到 的 问题 。 在 模式 中 ， 
句点 除了 换行 符 之 外 可 匹配 任意 字符 。 但 是 ， 如 果 以 开始 和 结束 文本 ( 比如 说 引号 ) 
将 句点 括 起 来 的 话 ， 在 匹配 过 程 中 将 尝试 找 出 最 长 的 可 能 匹配 结果 。 这 会 导致 匹配 时 
跳 过 多 个 开始 或 结束 文本 ， 而 将 它们 都 包含 在 最 长 的 匹配 中 。 在 * 或 + 后 添加 一 个 ”， 
会 强制 将 匹配 算法 调整 为 寻找 最 短 的 可 能 匹配 。 



































2.8 编写 多 行 模式 的 正则 表达 式 


2.8.1 问题 

我 们 打算 用 正则 表达 式 对 一 段 文本 块 做 匹配 ， 但 是 希望 在 进行 匹配 时 能 够 跨越 多 行 。 
2.8.2 ”解决 方案 

这 个 问题 一 般 出 现在 希望 使 用 句点 (. ) 来 匹配 任意 字符 ， 但 是 忘记 了 句点 并 不 能 匹配 
换行 符 时 。 例 如 ， 假 设想 匹配 C 语言 风格 的 注释 : 


>>> comment = re.compile(r'/\*(.*?)\*/") 
































>>> textl = '/* this is a comment */' 
>>> text2 = '''/* this is a 

multiline comment */ 
>>> 
>>> comment.findall(text1) 
[' this is a comment '] 
>>> comment. findall (text2) 


[] 
>>> 


要 解决 这 个 问题 ， 可 以 添加 对 换行 符 的 支持 。 示 例如 下 : 


>>> comment = re.compile(r'/\*((?:.|\n)*?)\*/') 
>>> comment. findall (text2) 

[' this is a\n multiline comment '] 

>>> 





























在 这 个 模式 中 ，C@:m 指 定 了 一 个 非 捕获 组 ( 即 ， 这 个 组 只 做 匹配 但 不 捕获 结果 ， 也 不 
会 分 配 组 号 )。 


2.8.3 讨论 
re.compileO 函 数 可 接受 一 个 有 用 的 标记 一 一 re.DOTALL。 这 使 得 正则 表达 式 中 的 句点 (.) 
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可 以 匹配 所 有 的 字符 ， 也 包括 换行 符 。 例 如 : 


>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL) 
>>> comment. findall (text2) 
[' this is a\n multiline comment '] 


对 于 简单 的 情况 ,使 用 re DOTALL 标记 就 可 以 很 好 地 完成 工作 。 但 是 如 果 要 处 理 极其 
复杂 的 模式 ， 或 者 面 对 的 是 如 2.18 节 中 所 描述 的 为 了 做 分 词 (tokenizing ) 而 将 单独 的 
正则 表达 式 合 并 在 一 起 的 情况 ， 如 果 可 以 选择 的 话 ， 通 常 更 好 的 方法 是 定义 自己 的 正 
则 表达 式 模式 ， 这 样 它 无 需 额外 的 标记 也 能 正确 工作 。 



































2.9 4% Unicode 文本 统一 表示 为 规范 形式 


2.9.1 问题 
我 们 正在 同 Unicode 字符 串 打交道 ， 但 需要 确保 所 有 的 字符 串 都 拥有 相同 的 底层 
表示 。 


2.9.2 ”解决 方案 


在 Unicode 中 , 有 些 特定 的 字符 可 以 被 表示 成 多 种 合法 的 代码 点 序列 。 为 了 说 明 这 个 问 
题 ， 请 看 下 面 的 示例 : 


>>> sl = 'Spicy JalapeNu00f1o' 








>>> s2 = 'Spicy Jalapen\u03030' 
>>> sl 

"Spicy Jalapefio' 
>>> s2 

"Spicy Jalapefio' 
>>> sl == s2 
False 

>>> len(s1) 

14 

>>> len(s2) 

15 

>>> 


这 里 的 文本 “Spicy Jalapeio” 以 两 种 形式 呈现 。 第 一 种 使 用 的 是 字符 “全 "的 全 组 成 (fully 
composed ) 形式 (U+00F1 )。 第 二 种 使 用 的 是 拉丁 字母 “mn”* 紧 跟着 一 个 “~” 组 合 而 成 的 字 
符 (U+0303 )。 

对 于 一 个 比较 字符 串 的 程序 来 说 ， 同 一 个 文本 拥有 多 种 不 同 的 表示 形式 是 个 大 问题 。 
为 了 解决 这 个 问题 ， 应 该 先 将 文本 统一 表示 为 规范 形式 ， 这 可 以 通过 unicodedata 模块 














50 第 2 章 


>>> import unicodedata 

>>> tl = unicodedata.normalize('NFC', s1) 
>>> t2 = unicodedata.normalize('NFC', s2) 
>>> tl == t2 

True 

>>> print (ascii (t1) 

"Spicy Jalape\xflo' 


>>> t3 = unicodedata.normalize('NFD', s1) 
>>> t4 = unicodedata.normalize('NFD', s2) 
>>> t3 == t4 

True 

>>> print (ascii (t3) ) 

"Spicy Jalapen\u03030' 

>>> 








normalize() 的 第 一 个 参数 指定 了 字符 串 应 该 如 何 完成 规范 表示 。NFC 表示 字符 应 该 是 全 
组 成 的 ( 即 ， 如 果 可 能 的 话 就 使 用 单个 代码 点 )。NFD 表示 应 该 使 用 组 合 字符 ， 每 个 字 
符 应 该 是 能 完全 分 解 开 的 。 


Python 还 支持 NFKC 和 NFKD 的 规范 表示 形式 ， 它 们 为 处 理 特定 类 型 的 字符 增加 了 额 
外 的 兼容 功能 。 例 如 : 




















>>> s = '\ufb01' # A single character 
>>> sS 

"fi! 

>>> unicodedata.normalize('NFD', s) 
"fi! 


# Notice how the combined letters are broken apart here 
>>> unicodedata.normalize('NFKD', s) 

"fi! 

>>> unicodedata.normalize('NFKC', s) 

Vet 

>>> 


2.9.3 讨论 
对 于 任何 需要 确保 以 规范 和 一 致 性 的 方式 处 理 Unicode 文本 的 程序 来 说 ,规范 化 都 是 重 


要 


3 














的 一 部 分 。 尤 其 是 在 处 理 用 户 输 入 时 接收 到 的 字符 串 时 ， 此 时 你 无 法 控制 字符 串 的 
码 形式 ， 那 么 规范 化 文本 的 表示 就 显得 更 为 重要 了 。 




















在 


对 文本 进行 过 滤 和 净化 时 ， 规 范 化 同样 也 占据 了 重要 的 部 分 。 例 如 ， 假 设想 从 某 些 
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文本 中 去 除 所 有 的 音符 标记 ( 可 能 是 为 了 进行 搜索 或 匹配 ): 


>>> tl = unicodedata.normalize('NFD', s1) 

>>> ''.join(c for c in tl if not unicodedata.combining(c) ) 
"Spicy Jalapeno' 

>>> 


最 后 一 个 例子 展示 了 unicodedata 模块 的 另 一 个 重要 功能 一 一 用 来 检测 字符 是 否 属于 
个 字符 类 别 。 使 用 工具 combining0) 函 数 可 对 字符 做 检查 ， 判 断 它 是 否 为 一 个 组 合 型 
符 。 这 个 模块 中 还 有 一 些 函 数 可 用 来 查找 字符 类 别 、 检 测 数字 字符 等 。 
很 显然 ，Unicode 是 一 个 庞大 的 主题 。 要 获得 更 多 有 关 规 范 化 文本 方面 的 参考 信息 ， 可 访问 
http://www.unicode.org/faq/normalization.html。Ned Batchelder 也 在 他 的 网 站 http://nedbatchelder. 
com/text/unipain.html 上 对 Python 中 的 Unicode 处 理 给 出 了 优秀 的 示例 说 明 。 
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2.10 用 正则 表达 式 处 理 Unicode 字符 


2.10.1 问题 
我 们 正在 用 正则 表达 式 处 理 文本 ， 但 是 需要 考虑 处 理 Unicode 字符 。 


2.10.2 解决 方案 
默认 情况 下 re 模块 已 经 对 某 些 Unicode 字符 类 型 有 了 基本 的 认识 。 例 如 ，\d 已 经 可 以 
匹配 任意 Unicode 数字 字符 了 : 


>>> import re 

>>> num = re.compile('\d+') 

>>> # ASCII digits 

>>> num.match('123') 

<_sre.SRE Match object at 0x1007d9ed0> 




















>>> # Arabic digits 

>>> num.match ('\u0661\u0662\u0663') 
<_sre.SRE Match object at 0x101234030> 
>> 


如 果 需 要 在 模式 字符 串 中 包含 指定 的 Unicode 字符 , 可 以 针对 Unicode 字符 使 用 转 义 序 
列 (例如 \uFFFF 或 \UFFFFFFF )。 比 如 ， 这 里 有 一 个 正则 表达 式 能 在 多 个 不 同 的 阿拉 伯 
代码 页 中 匹配 所 有 的 字符 : 


>>> arabic = re.compile ('[\u0600-\u06ff\u0750-\u077f\u08a0-\u08ff]+') 
>>> 


当 执行 匹配 和 搜索 操作 时 , 一 个 好 主意 是 首先 将 所 有 的 文本 都 统一 表示 为 标准 形式 ( 见 
2.9 W) 但 是 ， 同 样 重要 的 是 需要 注意 一 些 特殊 情况 。 例 如 ， 当 不 区 分 大 小 写 的 匹配 
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和 大 写 转换 (case folding ) 匹配 联合 起 来 时 ， 考 虑 会 出 现 什 么 行为 : 


>>> pat = re.compile('stra\u00dfe', re.IGNORECASE) 


>>> s = 'stra ğ' 

>>> pat.match (s) # Matches 
<_sre.SRE Match object at 0x10069d370> 

>>> pat.match (s.upper ()) # Doesn't match 
>>> s.upper () # Case folds 
"STRASSE' 

>>> 


2.10.3 讨论 

把 Unicode 和 正则 表达 式 混 在 一 起 使 用 绝对 是 个 能 让 人 头痛 欲 裂 的 办 法 。 如 果真 的 要 这 么 
做 ， 应 该 考虑 安装 第 三 方 的 正则 表达 式 库 Chttp://pypi.python.org/pypi/regex )， 这 些 第 三 方 
库 针 对 Unicode 大 写 转 换 提 供 了 完整 的 支持 , 还 包含 其 他 各 种 有 趣 的 特性 , 包括 近似 匹配 。 





























2.11 从 字符 串 中 去 掉 不 需要 的 字符 


2.11.1 问题 
我 们 想 在 字符 串 的 开始 、 结 尾 或 中 间 去 掉 不 需要 的 字符 ， 比 如 说 空格 符 。 


2.11.2 解决 方案 


strip() 方 法 可 用 来 从 字符 串 的 开始 和 结尾 处 去 掉 字 符 。lstrip0 和 rstrip0 可 分 别 从 左 或 从 
右 侧 开始 执行 去 除 字符 的 操作 。 默 认 情 况 下 这 些 方法 去 除 的 是 空格 符 ， 但 也 可 以 指定 
其 他 的 字符 。 例 如 : 


>>> # Whitespace stripping 
>>> s = ' hello world \n' 
>>> s.strip() 

"hello world' 

>>> s.lstrip() 

"hello world \n' 

>>> s.rstrip() 

' hello world' 

>>> 




















>>> # Character stripping 
pert oS Enas hello=====' 
>>> t.lstrip('-') 
"hello=====!' 
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2.11.3 ”讨论 
当 我 们 读 取 并 整理 数据 以 待 稍 后 的 处 理 时 常常 会 用 到 这 类 strip0 方 法 。 例如 , 可 以 用 它 
们 来 去 掉 空格 、 移 除 引 号 等 。 


需要 注意 的 是 ， 去 除 字符 的 操作 并 不 会 对 位 于 字符 串 中 间 的 任何 文本 起 作用 。 例 如 : 


>>> s = ' hello world \n' 














>>> s = s.strip() 
>>> S 

"hello world' 
>>> 


如 果 要 对 里 面 的 空格 执行 某 些 操作 , 应 该 使 用 其 他 技巧 ,比如 使 用 replace() 方 法 或 正则 
表达 式 替 换 。 例 如 : 

>>> s.replace(' ', '') 

"helloworld' 

>>> import re 

>>> re.sub('\st', ' ', s) 

"hello world! 

>>> 
RINER So HES EEE REA RE RRR REER, Eea CE 
中 读 取 文本 行 。 如 果 是 这 样 的 话 ， 那 就 到 了 生成 器 表达 式 大 显 号 手 的 时 候 了 。 例 如 : 


with open(filename) as f: 














lines = (line.strip() for line in f) 
for line in lines: 

















这 里 ， 表 达 式 lines = (line.strip() for line in 有 的 作用 是 完成 数据 的 转换 “。 它 很 高 效 ， 
为 这 里 并 没有 先 将 数据 读 取 到 任何 形式 的 临时 列表 中 。 它 只 是 创建 一 个 迭代 器 ， 在 所 
有 产生 出 的 文本 行 上 都 会 执行 strip 操作 。 


对 于 更 高 级 的 strip 操作 ， 应 该 转 而 使 用 translate0 方 法 。 请 参见 下 一 节 以 获得 进一步 的 细节 。 





2.12 文本 过 滤 和 清理 


2.12.1 问题 


某 些 无 聊 的 脚本 小 子 在 Web 页 面 表单 中 填 人 了 “pytp6i" 这 样 的 文本 ， 我 们 想 以 某 种 方 
式 将 其 清理 掉 。 








”把 原始 数据 中 每 一 行 开头 和 结尾 处 的 空格 符 去 掉 ， 相 当 于 一 种 转换 处 理 。 一 一 译 者 注 
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2.12.2 解决 方案 

文本 过 滤 和 清理 所 涵盖 的 范围 非 党 广泛， 涉及 文本 解析 和 数据 处 理 方面 的 问题 。 在 非 
常 简单 的 层次 上 , 我 们 可 能 会 用 基本 的 字符 串 函 数 (例如 strupper0 和 str.lower() ) 将 文 
本 转换 为 标准 形式 。 简 单 的 替换 操作 可 通过 strreplace0) 或 re.sub0) 来 完成 ， 它 们 把 重点 
放 在 移 除 或 修改 特定 的 字符 序列 上 。 也 可 以 利用 unicodedata.normalize() 来 规范 化 文本 ， 
如 2.9 节 所 示 。 

然而 我 们 可 能 想 更 进一步 。 比 方 说 也 许 想 清除 整个 范围 内 的 字符 ,或 者 去 掉 音 符 标 志 。 
要 完成 这 些 任务 ， 可 以 使 用 常 被 忽视 的 str.translate() 方 法 。 为 了 说 明 其 用 法 ,假设 有 如 
下 这 上 段 混 乱 的 字符 串 : 


>>> s = 'python\fis\tawesome\r\n' 








>>> S 
'python\x0cis\tawesome\r\n' 
>>> 


第 一 步 是 清理 空格 。 要 做 到 这 步 ， 先 建立 一 个 小 型 的 转换 表 ， 然后 使 用 translate() 方 法 : 


>>> remap = { 
ord('\t') mea 
ord('\£') : 
ord('\r') : None # Deleted 


>>> a = s.translate (remap) 
>>> a 

‘python is awesome\n' 

>>> 





HUER, KWN 和 Yf 这 样 的 空格 符 已 经 被 重新 映射 成 一 个 单独 的 空格 。 回 车 符 \r 已 经 
完全 被 删除 掉 了 。 


可 以 利用 这 种 重新 映射 的 思想 进一步 构建 出 更 加 庞大 的 转换 表 。 人 例如， 我们 把 所 有 的 
Unicode 组 合 字符 都 去 掉 : 


>>> import unicodedata 

>>> import sys 

>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) 
if unicodedata.combining(chr(c))) 





>>> b = unicodedata.normalize('NFD', a) 
>>> b 

‘python is awesome\n' 

>>> b.translate(cmb_chrs) 

"python is awesome\n' 

>>> 
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在 这 个 例子 中 ， 我 们 使 用 dict. fromkeys() 方 法 构建 了 一 个 将 每 个 Unicode 组 合 字符 都 映 
射 为 None 的 字典 。 
原始 输入 会 通过 unicodedata.normalize() 方 法 转换 为 分 离 形 式 ， 然 后 再 通过 translate() 方 
法 删除 所 有 的 重音 符号 。 我 们 也 可 以 利用 相似 的 技术 来 去 掉 其 他 类 型 的 字符 〈 例如 控 
制 字 符 )。 

下 面 来 看 男 一 个 例子 。 这 里 有 一 张 转换 表 将 所 有 的 Unicode 十 进 制 数字 字符 映射 为 它们 
对 应 的 ASCII 版 本 : 


>>> digitmap = { c: ord('0') + unicodedata.digit (chr (c)) 














for c in range (sys.maxunicode) 


if unicodedata.category(chr(c)) == 'Nd' } 


>>> len(digitmap) 

460 

>>> # Arabic digits 

>>> x = '\u0661\u0662\u0663' 
>>> x.translate(digitmap) 
123% 

>>> 


另 一 种 用 来 清理 文本 的 技术 涉及 VO SNS AN SS PELE KEU E E FET SOAS HAG 
清理 ， 然 后 通过 结合 encode0 和 decode0 操 作 来 修改 或 清理 文本 。 示 例如 下 : 


>>> a 








‘python is awesome\n' 

>>> b = unicodedata.normalize('NFD', a) 

>>> b.encode('ascii', 'ignore') .decode('ascii') 
‘python is awesome\n' 

>>> 


这 里 的 normalize() 方 法 先 对 原始 文本 做 分 解 操 作 。 后 续 的 ASCH 编码 /解码 只 是 简单 地 
一 次 性 丢弃 所 有 不 需要 的 字符 。 很 显然 ， 这 种 方法 只 有 当 我 们 的 最 终 目标 就 是 ASCII 
形式 的 文本 时 才 有 用 。 

2.12.3 讨论 

文本 过 滤 和 清理 的 一 个 主要 问题 就 是 运行 时 的 性 能 。 一 般 来 说 操作 越 简 单 ， 运 行 得 就 
越 快 。 对 于 简单 的 蔡 换 操作 ， 用 str.replace0 通 常 是 最 快 的 方式 一 一 即使 必须 多 次 调用 
它 也 是 如 此 。 比 方 说 如 果 要 清理 掉 空 格 符 ， 可 以 编写 如 下 的 代码 : 


def clean spaces(s): 























s = s.replace('\r', '') 
s = s.replace('\t', ' ') 
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s = s.replace('\£', i) 


return s 


如 果 试 着 调用 它 ， 就 会 发 现 这 比 使 用 translate0) 或 者 正则 表达 式 的 方法 要 快 得 多 。 
另 一 方面 ,如 果 需 要 做 任何 高 级 的 操作 ,比如 字符 到 字符 的 重 映 射 或 删除 ,那么 translate() 

















方法 还 是 非常 快 的 。 








从 整体 来 看 ， 我 们 应 该 在 具体 的 应 用 中 去 进一步 揣摩 性 外 

















bE 方面 的 问题 。 




















不 幸 的 是 ， 想 


在 技术 上 给 出 一 条 “ 放 之 四 海 而 丝 准 ”的 建议 是 不 可 能 的 ， 所 以 应 该 尝试 多 种 不 同 的 


方法 ， 然 后 做 性 能 统计 分 析 。 








尽管 本 节 的 内 容 主要 关注 的 是 文本 ， 但 类 似 的 技术 也 同样 适用 于 字 节 对 象 (byte )， 这 


包括 简单 的 蔡 换 、 翻 译 和 正则 表达 式 。 





2.13 ”对 齐 文 本 字符 串 
2.13.1 问题 
我 们 需要 以 某 种 对 齐 方式 将 文本 做 格式 化 处 理 。 
2.13.2 解决 方案 
对 于 基本 的 字符 串 对 齐 要 求 ， 可 以 使 用 字符 串 的 ljustO、 
WF: 

>>> text = 'Hello World' 


>>> text.ljust (20) 
'Hello World ' 

>>> text.rjust (20) 

! Hello World' 
>>> text.center (20) 

! Hello World ' 

>>> 


所 有 这 些 方法 都 可 接受 一 个 可 选 的 填充 字符 。 例 如 : 


>>> text.rjust(20,'=') 
'=========Hello World! 
>>> text.center(20,'*') 
'****Hello World*****! 


>>> 





fjust() 和 center() 方 法 。 示 例 


format() 函 数 也 可 以 用 来 轻松 完成 对 齐 的 任务 。 需 要 做 的 就 是 合理 利用 '<'"、>'， 或 八字 
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符 以 及 一 个 期 望 的 宽度 值 ”。 例 如 ; 


>>> format(text, '>20') 
i Hello World' 
>>> format(text, '<20') 
"Hello World ' 

>>> format(text, '%20') 
1 Hello World ' 

>>> 








如 果 想 包含 空格 之 外 的 填充 字符 ， 可 以 在 对 齐 字 符 之 前 指定 : 


>>> format(text, '=>20s') 
's=s=======Hello World! 
>>> format(text, '*^20s') 
'xxxxHello World****x! 
>>> 


当 格 式 化 多 个 值 时 ， 这 些 格式 化 代码 也 可 以 用 在 format() 方 法 中 。 例 如 : 


>>> '{:>10s} {:>10s}'.format('Hello', 'World') 
1 Hello World' 
>>> 























format() 的 好 处 之 一 是 它 并 不 是 特定 于 字符 串 的 。 它 能 作用 于 任何 值 ， 这 使 得 它 更 加 通 
Ho 例如， 可 以 对 数字 做 格式 化 处 理 : 


>>> x = 1.2345 

>>> format(x, '>10') 

' 1.2345! 

>>> format(x, '%10.2f') 
{ T235! 

>>> 


2.13.3 ”讨论 
在 比较 老 的 代码 中 ， 通 常会 发 现 % 操 作 符 用 来 格式 化 文本 。 例 如 ， 


>>> '%-20s' % text 
"Hello World ' 

>>> 'S20s' % text 

t Hello World' 
>>> 


但 是 在 新 的 代码 中 , 我 们 应 该 会 更 钟情 于 使 用 format0) 函 数 或 方法 。format() 比 % 操 作 符 
提供 的 功能 要 强大 多 了 。 此 外 ，format() 可 作用 于 任意 类 型 的 对 象 ， 比 字符 串 的 jjustO、 
rust0 以 及 center() 方 法 要 更 加 通用 。 
























































”> 表示 右 对 齐 ，< 表 示 左 对 齐 ，w 表 示 居 中 对 齐 ， 这 些 字符 称 为 对 齐 字符 。 一 一 译 者 注 
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想 了 解 format() 函 数 的 所 有 功能 ,请 参考 Python 的 在 线 手册 http://docs.python.org/3/ libra 
ry/ string. html#formatspec. 


2.14 字符 串 连接 及 合并 


2.14.1 问题 
我 们 想 将 许多 小 字符 串 合并 成 一 个 大 的 字符 


2.14.2 解决 方案 
如 果 想 要 合并 的 字符 串 在 一 个 序列 或 可 迭代 对 象 中 ,那么 将 它们 合并 起 来 的 最 快 方法 
就 是 使 用 join0 方 法 。 示 例如 下 : 


>>> parts = ['Is', 'Chicago', 'Not', 'Chicago?'] 
>>> ' '.join(parts) 





Ud 
o 





























'Is Chicago Not Chicago?' 
>>> ','.join (parts) 
'Is,Chicago,Not,Chicago?' 


>>> '',join (parts) 
'IsChicagoNotChicago?' 
>>> 








初 看 上 去 语法 可 能 显得 有 些 怪异 ， 但 是 join0 操 作 其 实 是 字符 串 对 象 的 一 个 方法 。 这 人 么 
设计 的 部 分 原因 是 因为 想 要 合并 在 一 起 的 对 象 可 能 来 自 于 各 种 不 同 的 数据 序列 ， 比 如 
列表 、 元 组 、 字 典 、 文 件 、 集 合 或 生成 器 , 如 果 单 独 在 每 一 种 序列 对 象 中 实现 一 个 join0 
方法 就 显得 太 元 余 了 。 因 此 只 需要 指定 想 要 的 分 隔 字 符 串 ， 然 后 在 字符 串 对 象 上 使 用 
join0 方 法 将 文本 片段 粘 合 在 一 起 就 可 以 了 。 

如 果 只 是 想 连 接 一 些 字 符 串 ， 一 般 使 用 + 操作 符 就 足够 完成 任务 了 : 



































>>> a = 'Is Chicago' 
>>> b = 'Not Chicago?' 
>>> at! '+b 


"Is Chicago Not Chicago?! 
>>> 





针对 更 加 复杂 的 字符 串 格式 化 操作 ，+ 操 作 符 同样 可 以 作为 format0) 的 替代 ， 很 好 地 完 
成 任务 : 


>>> print ('{} {}'.format (a,b)) 
Is Chicago Not Chicago? 

>>> print (a + ' ' + b) 

Is Chicago Not Chicago? 

>>> 
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如 果 打 算 在 源 代码 中 将 字符 串 字 面值 合并 在 一 起 ， 可 以 简单 地 将 它们 排列 在 一 起 ， 中 
间 不 加 + 操作 符 。 示 例如 下 : 
>>> a = 'Hello' 'World' 


"HelloWorld' 


2.14.3 ”讨论 

字符 串 连 接 这 个 主题 可 能 看 起 来 还 没有 高 级 到 要 用 一 整 节 的 篇 幅 来 讲解 ， 但 是 程序 员 
常常 会 在 这 个 问题 上 做 出 错误 的 编程 选择 ， 使 得 他 们 的 代码 性 能 受到 影响 。 

最 重要 的 一 点 是 要 意识 到 使 用 + 操作 符 做 大 量 的 字符 串 连 接 是 非常 低 效 的 ， 原 因 
是 由 于 内 存 拷贝 和 垃圾 收集 产生 的 影响 。 特 别 是 你 绝 不 会 想 写 出 这 样 的 字符 串 连 
接 代码 : 


s="! 

































































for p in parts: 
s += p 
这 种 做 法 比 使 用 join0 方 法 要 慢 上 许多 。 主要 是 因为 每 个 += 操 作 都 会 创建 一 个 新 的 字符 
串 对 象 。 我 们 最 好 先 收集 所 有 要 连接 的 部 分 ， 最 后 再 一 次 将 它们 连接 起 来 。 
一 个 相关 的 技巧 〈《 很 漂亮 的 技巧 ) 是 利用 生成 需 表 达 式 〈 见 1.19 1) 在 将 数据 转换 为 
字符 串 的 同时 完成 连接 操作 。 示 例如 下 : 

































































>>> data = ['ACME', 50, 91.1] 

>>> ','.join(str(d) for d in data) 
"ACME, 50,91.1' 

>> 


对 于 不 必要 的 字符 串 连接 操作 也 要 引起 重视 。 有 时 候 在 技术 上 并 非 必 需 的 时 候 ， 程 序 
员 们 也 会 忘乎所以 地 使 用 字符 串 连 接 操 作 。 例 如 在 打印 的 时 候 : 








print (a + ':' + b+ ':' +c) # Ugly 
print (':'.join({a, b, c])) # Still ugly 
print(a, b, c, sep=':') # Better 


将 字符 串 连 接 同 IO 操作 混合 起 来 的 时 候 需要 对 应 用 做 仔细 的 分 析 。 例如 , 考虑 如 下 两 
段 代 码 : 


# Version 1 (string concatenation) 
f.write(chunkl + chunk2) 
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# Version 2 (separate I/O operations) 
f.write (chunk1) 
f.write (chunk2) 























如 果 这 两 个 字符 串 都 很 小 ,那么 第 一 个 版 本 的 代码 能 带 来 更 好 的 性 能 ， 这 是 因为 执行 
一 次 VO 系统 调用 的 固有 开销 就 很 高 。 另 一 方面 , 如 果 这 两 个 字符 串 都 很 大 , 那么 第 二 
个 版 本 的 代码 会 更 加 高 效 。 因 为 这 里 避免 了 创建 大 的 临时 结果 ， 也 没有 对 大 块 的 内 存 
进行 拷贝 。 这 里 必须 再 次 强调 ， 你 需要 对 自己 的 数据 做 分 析 ， 以 此 才能 判定 哪 一 种 方 











法 可 以 获得 最 好 的 性 能 。 
































最 后 但 也 是 最 重要 的 是 ， 如 果 我 们 编写 的 代码 要 从 许多 短 字符 串 中 构建 输出 ， 则 应 该 














考虑 编写 生成 右 函 数 ， 通 过 yield 关键 字 生 成 字符 串 片 段 。 示 例如 下 : 


def sample(): 














yield 'Is' 
yield 'Chicago' 
yield 'Not' 
yield 'Chicago?' 





关于 这 种 方法 有 一 个 有 趣 的 事实 ， 那 就 是 它 不 会 假设 产生 的 片段 要 如 何 组 合 在 一 起 。 


比如 说 可 以 用 join0 将 它们 简单 的 连接 起 来 : 
text = ''.join(sample()) 


或 者 ， 也 可 以 将 这 些 片 段 重 定向 到 TO: 


for part in sample(): 
f.write (part) 


又 或 者 我 们 能 以 混合 的 方式 将 IO 操作 智能 化 地 结合 在 一 起 : 


def combine(source, maxsize): 
parts = [] 
size = 0 
for part in source: 
parts.append (part) 
size += len (part) 
if size > maxsize: 
yield ''.join (parts) 
parts = [] 
size = 0 
yield ''.join (parts) 


for part in combine (sample (), 32768): 
f.write (part) 
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2.15 ”给 字符 串 中 的 变量 名 做 插值 处 理 
2.15.1 问题 





我 们 想 创建 一 个 字符 串 ， 其 中 骨 入 的 变量 名 称 会 以 变量 的 字符 串 值 形式 替换 掉 。 





2.15.2 ”解决 方案 


Python 并 不 直接 支持 在 字符 串 中 对 变量 做 简单 的 值 奉 换 。 但 是 ， 这 个 功 
符 串 的 format(0 方 法 近似 模拟 出 来 。 示 例如 下 : 


>>> s = '{name} has {n} messages.' 























>>> s.format (name='Guido', n=37) 
"Guido has 37 messages.' 
>>> 





能 可 以 通过 字 


另 一 种 方式 是 ， 如 果 要 被 替换 的 值 确实 能 在 变量 中 找到 ， 则 可 以 将 format mapo FN 


vars() 联 合 起 来 使 用 ， 示 例如 下 : 


>>> name = 'Guido' 

>>> n = 37 

>>> s.format_map (vars () ) 
"Guido has 37 messages.' 
>>> 


AR vars0 的 一 个 微妙 的 特性 是 它 也 能 作用 于 类 实例 上 。 比 如 : 


>>> class Info: 
def init (self, name, n): 
self.name = name 
self.n =n 


>>> a = Info('Guido', 37) 
>>> s.format_map (vars (a) ) 
"Guido has 37 messages.' 

















>> 
而 format() 和 format map(O 的 一 个 缺点 则 是 没 法 优雅 地 处 理 缺 少 某 个 值 的 情况 。 
例如 : 


>>> s.format (name='Guido') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: 'n' 

>>> 
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避免 出 现 这 种 情况 的 一 种 方法 就 是 单独 定义 一 个 带 有 __missing _0 方 法 的 字典 类 , 示例 
如 下 : 


class safesub(dict): 
def missing (self, key): 


return '{' + key + '}' 
现在 用 这 个 类 来 包装 传 给 format mapO 的 输入 参数 : 
>>> del n # Make sure n is undefined 


>>> s.format_map(safesub(vars())) 
"Guido has {n} messages.' 
>>> 





BAS BBE A CE PS A m Be TEE RMU AERE E E BE — A 
小 型 的 功能 函数 内 ， 这 里 要 采用 一 种 称 之 为 “frame hack” 的 技巧 。 示 例如 下 : 


import sys 





def sub(text): 


return text.format_map(safesub(sys. getframe(1).f locals) ) 


现在 ， 我 们 就 可 以 像 这 样 编写 代码 了 : 


>>> name = 'Guido' 

>>> n = 37 

>>> print (sub('Hello {name}')) 

Hello Guido 

>>> print (sub('You have {n} messages.')) 

You have 37 messages. 

>>> print (sub('Your favorite color is {color}')) 
Your favorite color is {color} 

>>> 


2.15.3 讨论 


多 年 来 ,由 于 Python 缺乏 真正 的 变量 插值 功能 ,由 此 产生 了 各 种 解决 方案 。 作 为 本 
节 中 已 给 出 的 解决 方案 的 蔡 代 ， 有 时 候 我 们 会 看 到 类 似 下 面 代码 中 的 字符 串 格 式 化 
RIE: 


>>> name = 'Guido' 








>>> n = 37 


>>> 'S(name) has %(n) messages.' % vars () 








” 即 需要 同 函 数 的 栈 帧 打交道 。sys，getframe 这 个 特殊 的 函数 可 以 让 我 们 获得 调用 函数 的 栈 信 
息 。 一 一 译 者 注 
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"Guido has 37 messages.' 
>>> 


我 们 可 能 还 会 看 到 模板 字符 串 (template string ) 的 使 用 : 


>>> import string 

>>> s = string.Template('Sname has $n messages.') 
>>> s.substitute (vars () ) 

"Guido has 37 messages.' 

>>> 

















但 是 ，format0 和 format map() 方 法 比 上 面 这 些 奉 代 方 案 都 要 更 加 现代 化 ， 
将 其 作为 首选 。 使 用 formatO 的 一 个 好 处 是 可 以 同时 得 到 所 有 关于 字符 是 


























我 们 应 该 
格式 化 方 


面 的 功能 ( 对 齐 、 填 充 、 数 值 格式 化 等 )， 而 这 些 功能 在 字符 串 模 板 对 象 上 是 不 可 














能 做 到 的 。 


在 本 节 的 部 分 内 容 中 还 提 到 了 一 些 有 趣 的 高 级 特性 ,字典 类 中 侠 为 人 知 的 _missing 0 
方法 可 用 来 处 理 缺少 值 时 的 行为 。 在 safesub 类 中 ， 我们 将 该 方法 定义 为 将 缺失 的 值 以 
占 位 符 的 形式 返回 ， 因 此 这 里 不 会 抛 出 KeyError 异常 ， 缺 少 的 那个 值 会 出 现在 最 后 生 








成 的 字符 串 中 ( 可 能 对 调试 有 些 帮助 )。 





sub() 函 数 使 用 了 sys.，getframe(]l) 来 返回 调用 方 的 栈 帧 。 通 过 访问 属性 f locals 来 





得 到 局 部 变量 。 无 需 缆 言 ， 在 大 部 分 的 代码 中 都 应 该 避免 去 和 栈 帧 打交道 ， 但 是 





对 于 类 似 完成 字符 串 替 换 功能 的 函数 来 说 ， 这 会 是 有 用 的 。 插 一 句 题 儿 














hit, ， 值 得 




















指出 的 是 f_locals 是 一 个 字典 , 它 完 成 对 调用 函数 中 局 部 变量 的 找 贝 。 尽 管 可 以 修 














改 f locals 的 内 容 , 可 是 修改 后 并 不 会 产生 任何 持续 性 的 效果 。 因 此 , 尽管 访问 不 
同 的 栈 帧 可 能 看 起 来 是 很 那 恶 的 ， 但 是 想 意 外 地 覆盖 或 修改 调用 方 的 本 地 环境 也 









































是 不 可 能 的 。 


2.16 ”以 固定 的 列 数 重新 格式 化 文本 
2.16.1 问题 


我 们 有 一 些 很 长 的 字符 串 ， 想 将 它们 重新 格式 化 ， 使 得 它们 能 按照 用 户 指定 的 列 数 来 





显示 。 


2.16.2 解决 方案 





可 以 使 用 textwrap 模块 来 重新 格式 化 文本 的 输出 。 例 如 ,假设 有 如 下 这 上段 长 字符 








s = "Look into my eyes, look into my eyes, the eyes, the eyes, \ 
the eyes, not around the eyes, don't look around the eyes, \ 





Ud 
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look into my eyes, you're under." 


这 里 可 以 用 textwrap 模块 以 多 种 方式 来 重新 格式 化 字符 中 


>>> import textwrap 
>>> print (textwrap.fill(s, 70)) 





ao 


Look into my eyes, look into my eyes, the eyes, the eyes, the eyes, 
not around the eyes, don't look around the eyes, look into my eyes, 


you're under. 


>>> print (textwrap.fill(s, 40)) 

Look into my eyes, look into my eyes, 
the eyes, the eyes, the eyes, not around 
the eyes, don't look around the eyes, 


ook into my eyes, you're under. 


>>> print (textwrap.fill(s, 40, initial _indent=' ')) 











Look into my eyes, look into my 

eyes, the eyes, the eyes, the eyes, not 
around the eyes, don't look around the 

eyes, look into my eyes, you're under. 


>>> print (textwrap.fill(s, 40, subsequent_indent=' ')) 
Look into my eyes, look into my eyes, 

the eyes, the eyes, the eyes, not 

around the eyes, don't look around 

the eyes, look into my eyes, you're 


under. 


2.16.3 ”讨论 

textwrap 模块 能 够 以 简单 直接 的 方式 对 文本 格式 做 整理 使 其 适合 于 打印 一 一 尤其 是 当 
希望 输出 结果 能 很 好 地 显示 在 终端 上 时 。 关 于 终端 的 尺寸 大 小 ， 可 以 通过 os.get_ 
terminal_size() 来 获取 。 例 如 : 























>>> import os 

>>> os.get_terminal_size().columns 
80 

>>> 


fll(0 方 法 还 有 一 些 额外 的 选项 可 以 用 来 控制 如 何 处理 制 表 符 、 句 号 等 。 请 参阅 
textwrap.TextWrapper 类 的 文档 ( http://docs.python.org/3.3/library/ textwrap. html# text w r 
ap.TextWrapper ) 以 获得 进一步 的 细节 。 
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2.17 ”在 文本 中 人 处理 HTML 和 XML 实体 


2.17.1 问题 

我 们 想 将 &entity 或 &#code 这 样 的 HTML 或 XML 实体 替换 为 它们 相对 应 的 文本 。 或 
者 ， 我 们 需要 生成 文本 ， 但 是 要 对 特定 的 字符 〈 比如 <,> 或 & ) 做 转 义 处 理 。 

2.17.2 解决 方案 


如 果 要 生成 文本 , 使 用 html.escape() 函 数 来 完成 替换 <or> 这 样 的 特殊 字符 相对 来 说 是 比 
较 容易 的 。 例 如 : 


>>> s = 'Elements are written as "<tag>text</tag>".' 























>>> import html 

>>> print (s) 

Elements are written as "<tag>text</tag>". 

>>> print (html .escape(s) ) 

Elements are written as &quot;élt;tag&gt;text&lt;/tagk&gt; &quot;. 


>>> # Disable escaping of quotes 

>>> print (html.escape(s, quote=False) ) 

Elements are written as "&lt;tag&gt;texté&lt;/tagégt;". 
>> 





如 果 要 生成 ASCII 文本 ， 并 且 想 针对 非 ASCII FE E TI IEF a SARA F 
文本 中 , 可 以 在 各 种 同 IO 相关 的 函数 中 使 用 errors='xmlcharrefreplace' 参 数 来 实现 。 示 
例如 下 : 

>>> s = 'Spicy Jalapefio' 

>>> s.encode('ascii', errors='xmlcharrefreplace') 

b'Spicy Jalape&#241;0' 

>>> 


要 替换 文本 中 的 实体 , 那 就 需要 不 同 的 方法 。 如 果实 际 上 是 在 处 理 HTML BK XML, 首 
先 应 该 尝试 使 用 一 个 合适 的 HTML 或 XML 解析 器 。 一 般 来 说 ， 这 些 工具 在 解析 的 过 
程 中 会 自动 处 理 相关 值 的 替换 ， 而 我 们 完全 无 需 为 此 操心 。 

如 果 由 于 某 种 原因 在 得 到 的 文本 中 带 有 一 些 实体 ， 而 我 们 想 手工 将 它们 替换 掉 ， 通常 
可 以 利用 各 种 HTML 或 XML 解析 器 自 带 的 功能 函数 和 方法 来 完成 。 示 例如 下 : 


>>> s = 'Spicy &quot;Jalapes&#241;o0&quot.' 
































>>> from html.parser import HTMLParser 
>>> p = HTMLParser () 


>>> p.unescape (s) 
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"Spicy "Jalapefio".' 
>>> 


>>> t = 'The prompt is &gt;&gt;&gt;' 

>>> from xml.sax.saxutils import unescape 
>>> unescape (t) 

'The prompt is >>>' 

>>> 


2.17.3 itit 

















在 生成 HTML 或 XML 文档 时 ， 适 当地 对 特殊 字符 做 转 义 处 理 常常 是 个 容易 被 忽视 的 
细节 。 尤 其 是 当 自 己 用 print0 或 其 他 一 些 基 本 的 字符 串 格 式 化 函数 来 产生 这 类 输出 时 更 











是 如 此 。 简 单 的 解决 方案 是 使 用 像 html.escapeO 这 样 的 工具 函数 。 


如 果 需 要 反 过 来 处 理 文本 CBI, 将 HTML 或 XML 实体 转换 成 对 应 的 字符 )， 有 许多 
像 xml.sax.saxutils.unescape(O 这 样 的 工具 函数 能 帮 上 忙 。 但 是 ， 我 们 需要 仔细 考察 一 
个 合适 的 解析 器 应 该 如 何 使 用 。 例 如 ， 如 果 是 处 理 HTML 或 XML ， 像 html.parser 
或 xml.etree.ElementTree 这 样 的 解析 模块 应 该 已 经 解决 了 有 关 替 换文 本 中 实体 的 细 


节 问 题 。 


























2.18 ”文本 分 词 


2.18.1 问题 
我 们 有 一 个 字符 串 ， 想 从 左 到 右 将 它 解 析 为 标记 流 ( stream of tokens )。 


2.18.2 解决 方案 
假设 有 如 下 的 字符 串 文本 : 


text = 'foo = 23 + 42 * 10! 








要 对 字符 串 做 分 词 处 理 ， 需 要 做 的 不 仅仅 只 是 匹配 模式 。 我 们 还 需要 有 菜 种 方法 来 识 
别 出 模 式 的 类 型 。 例 如 ， 我们 可 能 想 将 字符 串 转 换 为 如 下 的 序列 对 : 
tokens = [('NAME', 'foo'), ('EQ','='), ('NUM', '23"), ('PLUS','+"), 
('NUM', '42'), ("TIMES', '*'), ('NUM', 10')] 
要 完成 这 样 的 分 词 处 理 ， 第 一 步 是 定义 出 所 有 可 能 的 标记 ， 包 括 空 格 。 这 可 以 通过 正 
则 表达 式 中 的 命名 捕获 组 来 实现 ， 示 例如 下 : 


import re 
NAME = xr! (2P<NAME>[a-zA-Z_][a-zA-Z_0-9]*)' 
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NUM = r'(?P<NUM>\d+) ' 
PLUS = r'(?P<PLUS>\+) ' 
TIMES = r'(?P<TIMES>\*) ' 
EQ = r'(?P<EQ>=) ' 

WS r'(?P<WS>\s+)' 


master_pat = re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS])) 
在 这 些 正则 表达 式 模式 中 ， 形 如 ?P<TOKENNAME> 这 样 的 约定 是 用 来 将 名 称 分 配给 该 
模式 的 。 这 个 我 们 稍 后 会 用 到 。 
接 下 来 我 们 使 用 模式 对 象 的 scanner() 方 法 来 完成 分 词 操作 。 该 方法 会 创建 一 个 扫描 对 
象 ， 在 给 定 的 文本 中 重复 调用 matchO0 ， 一 次 匹配 一 个 模式 。 下 面 这 个 交互 式 示例 展示 
了 扫描 对 象 是 如 何 工 作 的 : 


>>> scanner = master pat.scanner('foo = 42') 








>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> .lastgroup, _.group() 

('NAME', 'foo') 

>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> .lastgroup, _.group() 

('WS', ' ') 

>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> .lastgroup, _.group() 

(HEQ je '=') 

>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> .lastgroup, _.group() 

(‘WS', ' ') 

>>> scanner.match() 

<_sre.SRE Match object at 0x100677738> 
>>> .lastgroup, _.group() 


('NUM', "A42') 
>>> scanner.match() 
>>> 


要 利用 这 项 技术 并 将 其 转化 为 代码 ， 我 们 可 以 做 些 清 理工 作 然后 轻松 地 将 其 包含 在 一 
个 生成 絮 函 数 中 ， 示 例如 下 : 


from collections import namedtuple 





Token = namedtuple('Token', ['type', 'value']) 
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def generate tokens (pat, text): 
scanner = pat.scanner (text) 
for m in iter(scanner.match, None): 


yield Token(m.lastgroup, m.group()) 


# Example use 
for tok in generate _tokens(master pat, 'foo = 42"): 
print (tok) 


# Produces output 

Token (type='NAME', value='foo') 
Token (type='WS', value=' ') 
Token (type='EQ', value='=' 
Token (type='WS', value=' ') 
Token (type='NUM', value='42') 


wes “SHO. “es. eS. “Se 





如 果 想 以 某 种 方式 对 标记 流 做 过 滤 处 理 ， 要 么 定义 更 多 的 生成 器 函数 ， 要 么 驶 用 生成 
带 表 达 式 。 例 如 ， 下 面 的 代码 告诉 我 们 如 何 过 滤 挥 所 有 的 空格 标记 。 
tokens = (tok for tok in generate tokens (master pat, text) 


if tok.type != 'WS') 
for tok in tokens: 





print (tok) 


2.18.3 ”讨论 

对 于 更 加 高 级 的 文本 解析 , 第 一 步 往往 是 分 词 处 理 。 要 使 用 上 面 展示 的 扫描 技术 ， 有 
几 个 重要 的 细节 需要 牢记 于 心 。 第 一 ， 对 于 每 个 可 能 出 现在 输入 文本 中 的 文本 序列 ， 
都 要 确保 有 一 个 对 应 的 正则 表达 式 模式 可 以 将 其 识别 出 来 。 如 果 发 现 有 任何 不 能 匹配 
的 文本 ， 扫 描 过 程 就 会 停止 。 这 就 是 为 什么 有 必要 在 上 面 的 示例 中 指定 空格 标记 
(WS). 














这 些 标 记 在 正则 表达 式 ( 即 re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS])) ) 
中 的 顺序 同样 也 很 重要 。 当 进行 匹配 时 ，re 模块 会 按照 指定 的 顺序 来 对 模式 做 匹配 。 
因此 ， 如 果 碰 巧 某 个 模式 是 男 一 个 较 长 模式 的 子 串 时 ， 就 必须 确保 较 长 的 那个 模式 要 
先 做 匹配 。 示 例如 下 : 








LT = r'(?P<LT><)' 

LE = r' (?P<LE><=) ! 

EQ = r'(?P<EQ>=) ' 

master pat = re.compile('|'.join([LE, LT, EQ])) # Correct 


# master pat = re.compile('|'.join([LT, LE, EQ])) # Incorrect 


第 2 个 模式 是 错误 的 〈 注 释 掉 的 那 一 行 )， 因 为 这 样 会 把 文本 '<=' 严 配 为 LT ('<') KIR 
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着 EQ('=')， 而 没有 匹配 为 单独 的 标记 LE ('<=' )， 这 与 我 们 的 本 意 不 符 。 
最 后 也 最 重要 的 是 ， 对 于 有 可 能 形成 子 串 的 模式 要 多 加 小 心 。 例 如 ， 假 设 有 如 下 两 种 
模式 : 

PRINT = r'(P<PRINT>print) ' 

NAME = r'(P<NAME>[a-zA-Z ][a-zA-Z_0-9]*)' 











master pat = re.compile('|'.join([PRINT, NAME]) ) 


for tok in generate tokens(master pat, 'printer'): 
print (tok) 


# Outputs : 
# Token (type='PRINT', value='print') 
# Token (type='NAME', value='er') 


对 于 更 加 高 级 的 分 词 处 理 ， 我 们 应 该 去 看 看 像 PyParsing 或 PLY 这 样 的 包 。 有 关 PLY 
的 例子 将 在 下 一 节 中 讲解 。 


2.19 编写 一 个 简单 的 递归 下 降解 析 器 


2.19.1 问题 

我 们 需要 根据 一 组 语法 规则 来 解析 文本 ， 以 此 执行 相应 的 操作 或 构建 一 个 抽象 语法 
树 来 表示 输入 。 语 法 规则 很 简单 ， 因 此 我 们 倾向 于 自己 编写 解析 器 而 不 是 使 用 某 种 
解析 器 框架 。 

2.19.2 解决 方案 

在 这 个 问题 中 ,我 们 把 重点 放 在 根据 特定 的 语法 来 解析 文本 上 。 要 做 到 这 些 ， 应 该 以 
BNF 或 EBNF 的 形式 定义 出 语法 的 正式 规格 。 比 如 ， 对 于 简单 的 算术 运算 表达 式 ， 语 
法 看 起 来 是 这 样 的 : 


expr ::= expr + term 

































































| expr - term 
| term 
term ::= term * factor 
| term / factor 
| factor 
factor ::= ( expr ) 
| NUM 


又 或 者 以 EBNF 的 形式 定义 为 如 下 形式 : 
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expr ::= term { (+|-) term }* 
term ::= factor { (*|/) factor }* 
factor ::= ( expr ) 

| NUM 








在 EBNF 中 ， 部 分 包括 在 { ... }# 中 的 规则 是 可 选 的 。* 意 味 着 零 个 或 更 多 重复 项 ( 和 在 


正则 表达 式 中 的 意义 相同 )。 











现在 ， 如 果 我 们 对 BNF 还 不 熟悉 的 话 ， 可 以 把 它 看 做 是 规则 替换 或 取代 的 一 种 规范 形 








式 ， 左 侧 的 符号 可 以 被 右 侧 的 符号 所 取代 (反之 亦 然 )。 一 般 来 说 ， 在 

















坚 析 的 过 程 中 我 


们 会 尝试 将 输入 的 文本 同 语法 做 匹配 ， 通 过 BNF 来 完成 各 种 替换 和 扩展 。 为 了 说 明 ， 
假设 正在 解析 一 个 类 似 于 3 + 4* 5 这 样 的 表达 式 。 这 个 表达 式 首先 应 该 被 分 解 为 标记 
流 , 这 可 以 使 用 2.18 节 中 描述 的 技术 来 实现 。 得 到 的 结果 可 能 是 下 面 这 样 的 标记 序列 : 











NUM + NUM * NUM 





从 这 里 开始 ， 解 析 过 程 就 涉及 通过 替换 的 方式 将 语法 匹配 到 输入 标记 上 : 






































expr 

expr ::= term { (+|-) term }* 

expr ::= factor { (*|/) factor }* { (+|-) term }* 

expr : := { (*|/) factor }* { (+|-) term }* 

expr : := { (+|-) term }* 

expr ::= NUM + term { (+|-) term }* 

expr ::= NUM + factor { (*|/) factor }* { (+|-) term }* 

expr ::= NUM + NUM { (*|/) factor}* { (+|-) term }* 

expr ::= NUM + NUM * factor { (*|/) factor }* { (+|-) term }* 

expr ::= NUM + NUM * NUM { (*|/) factor }* { (+|-) term }* 

expr ::= NUM + NUM * NUM { (+|-) term }* 

expr ::= NUM + NUM * NUM 
完成 所 有 的 替换 需要 花 上 一 段 时 间 ， 这 是 由 输入 的 规模 和 尝试 去 匹配 的 语法 规则 所 决 
定 的 。 第 一 个 输入 标记 是 一 个 NUM, 因此 蔡 换 操作 首先 会 把 重点 放 在 匹配 这 一 部 分 上 。 

















一 旦 匹配 上 了 ,重点 就 转移 到 下 一 个 标记 + 上 ， 如 此 往复 。 当 发 现 无 法 匹配 下 一 个 标记 
时 ,右手 侧 的 特定 部 分 ({ EN factor }* ) 就 会 消失 。 在 一 个 成 功 的 解析 过 程 中 ， 整 个 


右手 侧 部 分 会 完全 根据 匹配 到 的 输入 标记 流 来 相应 地 扩展 。 





有 了 前 面 这 些 基 础 ， 下 面 就 向 各 位 展示 如 何 构 建 一 个 递归 下 降 的 表达 式 计算 带 : 


import re 
import collections 


# Token specification 
NUM = r'(?P<NUM>\dt+) ' 
PLUS = r'(?P<PLUS>\+)' 
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MINUS = r'(?P<MINUS>-)' 
TIMES = r'(?P<TIMES>\*)' 
DIVIDE = r'(?P<DIVIDE>/)' 
LPAREN = r'(?P<LPAREN>\ ()' 
RPAREN = r'(?P<RPAREN>\) ) ' 
WS = r'(?P<WS>\st+)' 


master pat = re.compile('|'.join([NUM, PLUS, MINUS, TIMES, 
DIVIDE, LPAREN, RPAREN, WS])) 
# Tokenizer 


Token = collections.namedtuple('Token', ['type', 'value']) 


def generate tokens (text): 
scanner = master _pat.scanner (text) 
for m in iter(scanner.match, None): 
tok = Token(m.lastgroup, m.group()) 
if tok.type != 'WS': 
yield tok 


# Parser 

class ExpressionEvaluator: 

ren 

Implementation of a recursive descent parser. Each method 
implements a single grammar rule. Use the ._accept() method 

to test and accept the current lookahead token. Use the ._expect () 
method to exactly match and discard the next token on on the input 
(or raise a SyntaxError if it doesn't match). 


mee 


def parse(self, text): 
self.tokens = generate_tokens (text) 


self.tok = None # Last symbol consumed 
self.nexttok = None # Next symbol tokenized 
self. advance () # Load first lookahead token 


return self.expr() 


def _advance (self): 
'Advance one token ahead' 
self.tok, self.nexttok = self.nexttok, next(self.tokens, None) 


def accept (self, toktype) : 
"Test and consume the next token if it matches toktype' 
if self.nexttok and self.nexttok.type == toktype: 
self. advance () 
return True 
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else: 
return False 


def expect (self, toktype) : 
"Consume next token if it matches toktype or raise SyntaxError' 
if not self. accept (toktype) : 
raise SyntaxError('Expected ' + toktype) 


# Grammar rules follow 


def expr(self): 
"expression ::= term { ('t'|'-') term }*" 


exprval = self.term() 

while self. accept('PLUS') or self. accept ('MINUS'): 
op = self.tok.type 
right = self.term() 


if op == 'PLUS': 
exprval += right 
elif op == 'MINUS': 


exprval -= right 
return exprval 


def term(self): 
"term ::= factor { ('*'|'/') factor }*" 


termval = self.factor() 

while self. accept('TIMES') or self. accept ('DIVIDE'): 
op = self.tok.type 
right = self.factor() 


if op == 'TIMES': 
termval *= right 
elif op == 'DIVIDE': 


termval /= right 
return termval 


def factor(self): 
"factor ::= NUM | ( expr )" 


if self. accept ('NUM'): 
return int (self.tok.value) 
elif self. accept ('LPAREN') : 
exprval = self.expr() 
self. expect ('RPAREN') 
return exprval 





+h 


a 
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else: 
raise SyntaxError('Expected NUMBER or LPAREN') 








下 面 是 以 交互 式 的 方式 使 用 ExpressionEvaluator 类 的 示例 : 
>>> e = ExpressionEvaluator () 
>>> e.parse('2') 
>>> e.parse('2 + 3!) 


>>> e.parse('2 + 3 * 4') 


>>> e.parse('2 + (3 + 4) * 5') 

37 

>>> e.parse('2 + (3 + * 4)') 
Traceback (most recent call last): 


H- 


File "<stdin>", line 1, in <module> 


Pe 


e "exprparse.py", line 40, in parse 
return self.expr () 
ile "exprparse.py", line 67, in expr 
right = self.term() 
ile "exprparse.py", line 77, in term 
termval = self.factor() 

ile "exprparse.py", line 93, in factor 
exprval = self.expr() 

ile "exprparse.py", line 67, in expr 
right = self.term() 
ile "exprparse.py", line 77, in term 
termval = self.factor() 











ile "exprparse.py", line 97, in factor 

raise SyntaxError ("Expected NUMBER or LPAREN") 
SyntaxError: Expected NUMBER or LPAREN 
>>> 

















如 果 我 们 想 做 的 不 只 是 纯粹 的 计算 , 那 就 需要 修改 ExpressionEvaluator 类 来 实现 。 比 如 ， 
下 面 的 实现 构建 了 一 棵 简单 的 解析 树 : 


class ExpressionTreeBuilder (ExpressionEvaluator): 





def expr(self): 
"expression ::= term { ('t+'|'-') term }" 


exprval = self.term() 

while self. accept('PLUS') or self. accept ('MINUS'): 
op = self.tok.type 
right = self.term() 
if op == 'PLUS': 
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exprval = ('+', exprval, right) 
elif op == 'MINUS': 
exprval = ('-', exprval, right) 
return exprval 


def term(self): 
"term ::= factor { ('*'|'/') factor }" 


termval = self.factor() 


while self. accept('TIMES') or self. accept ('DIVIDE'): 


op = self.tok.type 
right = self.factor() 
if op == 'TIMES': 
termval = ('*', termval, right) 
elif op == 'DIVIDE': 
termval = ('/', termval, right) 
return termval 


def factor(self): 
"factor ::= NUM | ( expr )' 


if self. accept ('NUM'): 
return int (self.tok.value) 
elif self. accept ('LPAREN') : 
exprval = self.expr () 
self. expect ('RPAREN') 
return exprval 
else: 
raise SyntaxError('Expected NUMBER or LPAREN') 


下 面 的 示例 展示 了 它 是 如 何 工 作 的 : 


>>> e = ExpressionTreeBuilder () 














>>> e.parse('2 + 3') 

('+', 2, 3) 

>>> e.parse('2 + 3 * 4') 
人 

>>> e.parse('2 + (3 + 4) * 5') 
(tr PET (TEn By ApS) 
>>> e.parse('2 + 3 + 4') 

ee pe Bele A) 

>>> 


2.19.3 讨论 
文本 解析 是 一 个 庞大 的 主题 ， 一 般 会 占用 学 生 们 编译 原 芭 

















课程 的 前 三 周 时 间 。 如 果 你 
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正在 寻找 有 关 语 法 、 解 析 算法 和 其 他 相关 信息 的 背景 知识 ， 那 么 应 该 去 找 一 本 编译 吉 
方面 的 图 书 来 读 。 无 需 袭 言 ， 本 书 是 不 会 重复 那些 内 容 的 。 

然而 ， 要 编写 一 个 递归 下 降 的 解析 器 ， 总 体 思路 还 是 比较 简单 的 。 我 们 要 将 每 一 条 语 
法 规则 转变 为 一 个 函数 或 方法 。 因 此 ， 如 果 我 们 的 语法 看 起 来 是 这 样 的 : 






































expr ::= term { ('t'|'-') term }* 
term ::= factor { ('*'|'/') factor }* 
factor ::= '(' expr ')' 

| NUM 


就 可 以 像 下 面 这 样 将 它们 转换 为 对 应 的 方法 : 


class ExpressionEvaluator: 


def expr(self): 





def term(self): 





def factor(self): 














每 个 方法 的 任务 很 简单 一 一 必须 针对 语法 规则 的 每 个 部 分 从 左 到 右 扫 描 ， 在 扫描 
过 程 中 处 理 符号 标记 。 从 某 种 意义 上 说 ,这些 方 法 的 目的 就 是 顺利 地 将 规则 消化 
掉 ， 如 果 卡 住 了 就 产生 一 个 语法 错误 。 要 做 到 这 点 ， 需 要 应 用 下 面 这 些 实现 
技术 。 


。 如果 规则 中 的 下 一 个 符号 标记 是 另 一 个 语法 规则 的 名 称 ( 例如 ，term 或 者 factor ), 
就 需要 调用 同名 的 方法 。 这 就 是 算法 中 的 “下 降 ” 部 分 一 一 控制 其 下 降 到 另 一 个 
语法 规则 中 。 有 时 候 规 则 中 会 涉及 调用 已 经 在 执行 的 方法 (例如 , 在 规则 factor ::= 
(expr "中 对 expr 的 调用 )。 这 就 是 算法 中 的 “递归 ”部 分 。 

。 ”如 果 规 则 中 的 下 一 个 符号 标记 是 一 个 特殊 的 符号 (例如 '(' ), 需要 检查 下 一 个 标记 ， 
看 它们 是 否 能 完全 匹配 。 如 果 不 能 匹配 ， 这 就 是 语法 错误 。 本 节 给 出 的 _expect() 
方法 就 是 用 来 处 理 这 些 步 又 的 。 

。 ”如 果 规 则 中 的 下 一 个 符号 标记 存在 多 种 可 能 的 选择 ( 例如 + 或 - )， 则 必须 针对 每 种 
可 能 性 对 下 一 个 标记 做 检查 ， 只 有 在 有 匹配 满足 时 才 前 进 到 下 一 步 。 这 就 是 本 节 
给 出 的 _accept0 方 法 的 目的 所 在 。 这 有 点 像 exceptO 的 弱化 版 ， 在 _ acceptO0 中 如 果 
有 匹配 满足 ， 就 前 进 到 下 一 步 ， 但 如 果 没 有 匹配 ， 它 只 是 简单 的 回 退 而 不 会 引发 
一 个 错误 〈 这 样 检 查 才 可 以 继续 进行 下 去 )。 
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。 ”对 于 语法 规则 中 出 现 的 重复 部 分 ( 例如 expr ::=term { (+ | '-) term }* ) ,这 是 通过 
while 循环 来 实现 的 。 一 般 在 循环 体 中 收集 或 处 理 所 有 的 重复 项 ， 直 到 无 法 找到 更 
多 的 重复 项 为 止 。 

。 一 旦 整个 语法 规则 都 已 经 处 理 完 ， 每 个 方法 就 返回 一 些 结果 给 调用 者 。 这 就 是 在 
解析 过 程 中 将 值 进行 传递 的 方法 。 比 如 ， 在 计算 器 表达 式 中 ， 表 达 式 解析 的 部 分 
结果 会 作为 值 来 返回 。 最 终 它 们 会 结合 在 一 起 ， 在 最 顶层 的 语法 规则 方法 中 得 到 
执行 。 

尽管 本 节 给 出 的 例子 很 简单 ， 但 递归 下 降解 析 器 可 以 用 来 实现 相当 复杂 的 解析 器 。 例 

如 ，Python 代码 本 身 也 是 通过 一 个 递归 下 降解 析 器 来 解释 的 。 如 果 对 此 很 感 兴趣 ， 可 

以 通过 检查 Python 源 代码 中 的 Grammar/Grammar 文件 来 一 探究 竟 。 即 便 如 此 , 要 自己 

手写 一 个 解析 器 时 仍然 需要 面 对 各 种 陷阱 和 局 限 。 

局 限 之 一 就 是 对 于 任何 涉及 左 递归 形式 的 语法 规则 ， 都 没 法 用 递归 下 降解 析 器 来 解决 。 

例如 ,假设 需要 解释 如 下 的 规则 : 


items ::= items ',' item 


























| item 
要 完成 这 样 的 解析 ， 我 们 可 能 会 试 着 这 样 来 定义 items() 方 法 : 
def items (self): 
itemsval = self.items() 
if itemsval and self. accept(','): 
itemsval.append(self.item() ) 


else: 
itemsval = [ self.item() ] 


唯一 的 问题 就 是 这 么 做 行 不 通 。 实 际 上 这 会 产生 一 个 无 穷 递归 的 错误 。 
我 们 也 可 能 会 陷入 到 语法 规则 自身 的 麻烦 中 。 例 如 ,我 们 可 能 想 知 道 表达 式 是 否 能 以 
这 种 加 简单 的 语法 形式 来 描述 : 


expr ::= factor { ('t'|'-'|'*'|'/') factor }* 














factor ::= '(' expression ')' 
| NUM 


这 个 语法 从 技术 上 说 是 能 实现 的 ， 但 是 它 却 并 没有 遵守 标准 算术 中 关于 计算 顺序 的 约 
定 。 比 如 说 ， 表 达 式 “3 + 4* 5” 会 被 计算 为 35， 而 不 是 我 们 预期 的 23。 因 此 这 里 需 
要 单独 的 “expr” 和 “term” 规 则 来 确保 计算 结果 的 正确 性 。 

对 于 真正 复杂 的 语法 解析 , 最 好 还 是 使 用 像 PyParsing 或 PLY 这 样 的 解析 工具 。 如 果 使 
H PLY 的 话 ， 解析 计算 器 表达 式 的 代码 看 起 来 是 这 样 的 : 
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th 
a 


from ply.lex import lex 
from ply.yacc import yacc 


# Token list 
tokens = [ 'NUM', 'PLUS', 'MINUS', 'TIMES', 'DIVIDE', 


# Ignored characters 
t_ignore = ' \t\n' 


# Token specifications (as regexs) 
t PLUS = r'\+! 
t MINUS = r'-! 
t_TIMES = r'\*! 
t_DIVIDE = r'/' 
t_LPAREN = r'\(' 
t_RPAREN = r'\)' 
# Token processing functions 
def t_NUM(t): 
r'\d+! 
t.value = int(t.value) 








return t 


# Error handler 

def t_error(t): 
print ('Bad character: {!r}'.format(t.value[0])) 
t.skip (1) 


# Build the lexer 
lexer = lex() 


# Grammar rules and handler functions 
def p_expr (p): 
expr : expr PLUS term 
| expr MINUS term 
mee 
if p[2] == 't': 
p[0] = p[1] + p[3] 
elif p[2] == '-': 
p[0] = pt] - p[3] 


def p_expr_term(p): 


meer 


"LPAREN', 


"RPAREN' 


] 
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def 


def 


def 


def 


def 


expr : term 


mer 


p_term(p): 
pee 
term : term TIMES factor 
| term DIVIDE factor 

pee 
if p[2] == '*': 

p[0] = p[1] * p[3] 
elif p[2] == '/': 

p[0] = p[1] / p[3] 


p_term_factor (p): 


EFF 


term : factor 


oer 


p_factor (p): 


mer 


factor : NUM 


ver 


p[0] = p[1] 


p_factor_group (p) : 


rr 


factor : LPAREN expr RPAREN 


ver 


p[0] = pl2] 


p_error(p): 
print ('Syntax error') 


parser = yacc() 


在 这 份 代码 中 会 发 现 所 有 的 东西 都 是 以 一 种 更 高 层 的 方式 来 定义 的 。 我 们 只 需 编 写 匹 












































>>> parser.parse('2") 


2 


>>> parser.parse('2+3') 


配 标 记 符号 的 正则 表达 式 ， 以 及 当 匹 配 各 种 语法 规则 时 所 需要 的 高 层 处 理 函 数 就 行 了 。 
而 实际 运行 解析 融 、 接 收 符号 标记 等 都 完全 由 库 来 实现 。 


下 面 是 如 何 使 用 解析 器 对 象 的 示例 : 





+h 


一 
ay 
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5 

>>> parser.parse ('2+(3+4) *5') 
37 

>>> 


如 果 想 在 编程 中 增加 一 点 激动 兴奋 的 感觉 , StS ET a A EAR EE A RR 


再 次 说 明 ， 一 本 编译 如 方面 的 教科 书 会 涵盖 许多 理论 之 下 的 底层 细节 。 但是， 在 网 上 
同样 也 能 找到 许多 优秀 的 在 线 资 源 。Python 自 带 的 ast 模块 也 同样 值得 去 看 看 。 







































































2.20 FEF TREAT MARIE 


2.20.1 问题 
我 们 想 在 字 节 串 (Byte String) 上 执行 常见 的 文本 操作 〈 例 如 ， 拆 分 、 搜 索 和 替换 )。 


2.20.2 解决 方案 
字 节 串 已 经 支持 大 多 数 和 文本 字符 串 一 样 的 内 建 操作 。 例 如 : 


>>> data = b'Hello World' 

>>> data[0:5] 

b'Hello' 

>>> data.startswith(b'Hello') 

True 

>>> data.split() 

[b'Hello', b'World'] 

>>> data.replace(b'Hello', b'Hello Cruel') 
b'Hello Cruel World' 

>>> 


类 似 这 样 的 操作 在 字 节 数组 上 也 能 完成 。 例 如 : 


>>> data = bytearray(b'Hello World') 

>>> data[0:5] 

bytearray(b'Hello') 

>>> data.startswith(b'Hello') 

True 

>>> data.split() 

[bytearray(b'Hello'), bytearray(b'World') ] 
>>> data.replace(b'Hello', b'Hello Cruel') 
bytearray(b'Hello Cruel World') 

>>> 





我 们 可 以 在 字 节 串 上 执行 正则 表达 式 的 模式 匹配 操作 ， 但 是 模式 本 身 需 要 以 字 节 串 的 
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形式 来 指定 。 示 例如 下 : 


2.20.3 
绝 大 部 分 情况 而 言 ， 几 乎 所 有 能 在 文本 字符 串 上 执行 的 操作 同样 也 可 以 在 字 节 串 上 





k 








过 
其 


ZN 


>>> 


>>> data = b'FOO:BAR,SPAM' 
>>> import re 


>>> re.split('[:,]',data) 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/re.py", line 191, in split 
return compile(pattern, flags).split(string, maxsplit) 


TypeError: can't use a string pattern on a bytes-like object 


>>> re.split(b'[:,]',data) 


[b'FOO', b'BAR', b'SPAM'] 


>>> 


讨论 


# Notice: pattern as bytes 


行 。 但 是 , 还 是 有 几 个 显著 的 区 别 值得 大 家 注意 。 例 如 : 


>>> a 
>>> a 


‘yt 


le! 


>>> b 





0 








'Hello World' # Text string 


b'Hello World' # Byte string 


这 种 语义 上 的 差异 会 对 试图 按照 字符 的 方式 处 理 面 向 字 节 流 数据 的 程序 带 来 影响 。 





次 ， 字 节 串 并 没有 提供 一 个 漂亮 的 字符 串 表 示 ， 因 此 打印 结果 并 不 干净 利落 ， 除 非 














首先 将 其 解码 为 文本 字符 串 。 示 例如 下 : 


>>> s = b'Hello World' 


>>> print (s) 


b'Hello World' 


>>> print (s.decode('ascii')) 
Hello World 


>>> 





— 


# Observe b'...' 





>F 
H 





同样 道理 ， 在 字 节 串 上 是 没有 普 











字符 串 那 样 的 格式 化 操作 的 。 
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th 
a 


>>> b'S10s 310d %10.2f' % (b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for %: 'bytes' and 'tuple' 


>>> b'{} {} {}'.format (b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'bytes' object has no attribute 'format' 
>>> 





如 果 想 在 字 节 串 上 做 任何 形式 的 格式 化 操作 ， 应 该 使 用 普通 的 文本 字符 串 然后 再 做 编 
码 。 示 例如 下 : 
>>> '{:10s} {:10d} {:10.2f}'.format('ACME', 100, 490.1) .encode('ascii') 


b' ACME 100 490.10" 
>>> 


最 后 ， 需 要 注意 的 是 使 用 字 节 串 会 改变 某 些 特定 操作 的 语义 一 一 尤其 是 那些 与 文件 系 
统 相关 的 操作 。 例 如 ， 如 果 提 供 一 个 以 字 闻 而 不 是 文本 字符 串 来 编码 的 文件 名 ， 文 件 
系统 通常 都 会 禁止 对 文件 名 的 编码 /解码 。 示 例如 下 : 


>>> # Write a UTF-8 filename 
>>> with open('jalape\xflo.txt', 'w 











) as f: 
f.write('spicy') 


>>> # Get a directory listing 

>>> import os 

>>> os.listdir('.') # Text string (names are decoded) 
['Jalapefio.txt'] 

>>> os.listdir(b'.') # Byte string (names left as bytes) 
[b'jalapen\xcc\x830.txt'] 

>>> 


请 注意 这 个 例子 中 的 最 后 部 分 ， 本 例 中 以 字 节 串 作 为 目录 名 从 而 导致 产生 的 名 称 以 未 
经 编码 的 原始 字 节 形式 返回 。 在 显示 目录 内 容 时 ， 文 件 名 包含 了 原始 的 UTF-8 编码 。 
有 关 文件 名 的 处 理 请 参阅 5.15 节 。 


最 后 要 说 的 是 ， 有 些 程序 员 可 能 会 因为 性 能 上 有 可 能 得 到 提升 而 倾向 于 将 字 节 串 作为 
文本 字符 串 的 替代 来 使 用 。 尽 管 操纵 字 节 确实 要 比 文本 来 的 略微 高 效 一 些 〈 由 于 同 
Unicode 相关 的 固有 开销 较 高 )， 但 这 么 做 通常 会 导致 非常 混乱 和 不 符合 语言 习惯 的 代 
码 。 我 们 常会 发 现 字 节 串 和 Python 中 许多 其 他 部 分 并 不 能 很 好 地 相 容 ， 这 样 为 了 保证 
结果 的 正确 性 ， 我 们 只 能 手动 去 执行 各 种 各 样 的 编码 /解码 操作 。 坦 白地 说 ， 如 果 要 同 
文本 打交道 ， 在 程序 中 使 用 普通 的 文本 字符 串 就 好 ， 不 要 用 字 节 串 。 
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在 Python 中 对 整数 和 浮 点 数 进 行 数学 计算 是 非常 容易 的 。 但 是 ， 如 果 需 要 对 分 数 、 
数组 或 者 日 期 和 时 间 进 行 计算 ， 就 需要 完成 更 多 的 工作 。 本 章 的 重点 正 是 应 对 这 些 























3.1 ”对 数值 进行 取 整 
3.1.1 问题 
我 们 想 将 一 个 浮 点 数 取 整 到 固定 的 小 数位 。 


3.1.2 解决 方案 
对 于 简单 的 取 整 操作 ， 使 用 内 建 的 round(value, ndigits) 函 数 即 可 。 示 例如 下 : 


>>> round(1.23, 1) 








1.2 

>>> round(1.27, 1) 
1.3 

>>> round(-1.27, 1) 
-1.3 

>>> round (1.25361, 3) 
1.254 


>>> 





当 某 个 值 恰好 等 于 两 个 整数 间 的 一 半 时 ， 取 整 操 作 会 取 到 离 该 值 最 接近 的 那个 偶数 上 。 
也 就 是 说 , 像 1.5 或 2.5 这 样 的 值 都 会 取 整 到 2。 
传递 给 round0 的 参数 ndigits 可 以 是 负数 ， 在 这 种 情况 下 会 相应 地 取 整 到 十 位 、 百 位 、 
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千 位 等 。 示 例如 下 : 


>>> a = 1627731 





>>> round(a, -1) 
1627730 
>>> round(a, -2) 
1627700 
>>> round(a, -3) 
1628000 


>>> 


3.1.3 讨论 


在 对 值 进行 输出 时 别 把 取 整 和 格式 化 操作 混为一谈 。 如 果 只 是 将 数值 以 固定 的 位 数 输 
出 ,一般 来 说 是 用 不 着 round0 的 。 相反， 只 要 在 格式 化 时 指定 所 需要 的 精度 就 可 以 了 。 
示例 如 下 : 


>>> x = 1.23456 























>>> format (x, '0.2f') 

L2G 

>>> format (x, '0.3f') 

"1.235: 

>>> 'value is {:0.3f}'. format (x) 
"value is 1.235' 


>>> 





此 外 ， 不 要 采用 对 浮 点 数 取 整 的 方式 来 “修正 ”精度 上 的 问题 。 比 如 ， 我 们 可 能 会 倾 
向 于 这 样 做 : 


>>> a = 2.1 

>>> b = 4.2 

>>> c=atb 

>>> c 

6.300000000000001 

>>> c = round(c, 2) # "Fix" result (???) 
>>> c 

6.3 


>>> 





对 于 大 部 分 涉及 浮 点 数 的 应 用 程序 来 说 ， 一 般 来 讲 都 不 必 (或 者 说 不 推荐 ) 这 么 做 。 
尽管 这 样 会 引入 一 些小 误差 ,但 这 些 误 差 是 可 理解 的 ， 也 是 可 容忍 的 。 如 果 说 避免 出 
现 误 差 的 行为 非常 重要 ( 例如 在 金融 类 应 用 中 )， 那 么 可 以 考虑 使 用 decimal 模块 ， 这 
也 正 是 下 一 节 的 主题 。 
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3.2 ”执行 精确 的 小 数 计算 


3.2.1 问题 
我 们 需要 对 小 数 进行 精确 计算 ， 不 希望 因为 浮 点 数 天 生 的 误差 而 带 来 影响 。 


3.2.2 ”解决 方案 


关于 浮 点 数 ， 一 个 尽 人 皆 知 的 问题 就 是 它们 无 法 精确 表达 出 所 有 的 十 进 制 小 数位 。 此 
外 ， 甚 至 连 简单 的 数学 计算 也 会 引入 微小 的 误差 。 例 如 : 


>>> a = 4.2 


























>>> b = 2.1 

>>> a+b 
6.300000000000001 
>>> (a + b) == 6.3 
False 

>>> 





这 些 误差 实际 上 是 底层 CPU 的 浮 点 运算 单元 和 IEEE 754 浮 点 数 算术 标准 的 一 种 “ 特 
”。 由 于 Python 的 浮 点 数 类 型 保存 的 数据 采用 的 是 原始 表示 形式 , 因此 如 果 编 写 的 代 
码 用 到 了 float 实例 ， 那 就 无 法 避免 这 样 的 误差 。 


如 果 期 望 得 到 更 高 的 精度 〈 并 愿意 为 此 牺牲 掉 一 些 性 能 )， 可 以 使 用 decimal 模块 : 
































aE 









































>>> from decimal import Decimal 
>>> a = Decimal ('4.2') 

>>> b = Decimal ('2.1"') 

>>> a + b 

Decimal ('6.3') 

>>> print(a + b) 

6.3 

>>> (a + b) == Decimal('6.3') 
True 

>> 


这 么 做 初 看 起 来 似乎 有 点 怪异 ( 将 数字 以 字符 串 的 形式 来 指定 ) (HE, Decimal 对 象 
能 以 任何 期 望 的 方式 来 工作 ( 支持 所 有 常见 的 数学 操作 )。 如 果 要 将 它们 打印 出 来 或 是 
在 字符 串 格 式 化 函数 中 使 用 ， 它 们 看 起 来 就 和 普通 的 数字 一 样 。 

decimal 模块 的 主要 功能 是 允许 控制 计算 过 程 中 的 各 个 方面 ， 这 包括 数字 的 位 数 和 四 舍 
五 人。 要 做 到 这 些 , 需 要 创建 一 个 本 地 的 上 下 文 环境 然后 修改 其 设 定 。 示 例如 下 : 





























>>> from decimal import localcontext 


>>> a = Decimal('1.3') 
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>>> b = Decimal('1.7') 
>>> print(a / b) 
0.7647058823529411764705882353 
>>> with localcontext() as ctx: 
ctx.prec = 3 
print(a / b) 
0.765 
>>> with localcontext() as ctx: 
ctx.prec = 50 





print(a / b) 


0.76470588235294117647058823529411764705882352941176 
>>> 


3.2.3 讨论 
decimal 模块 实现 了 IBM 的 通用 十 进 制 算术 规范 ( General Decimal Arithmetic 
Specification )。 不 用 说 ， 这 里 面 有 着 数量 庞大 的 配置 选项 ， 这 些 都 超出 了 本 书 的 范围 。 


Python 新 手 可 能 会 倾向 于 利用 decimal 模块 来 规避 处 理 float 数据 类 型 所 固有 的 精度 问 
题 。 但 是 ,正确 理解 你 的 应 用 领域 是 至 关 重 要 的 。 如 果 我 们 处 理 的 是 科学 或 工程 类 的 
问题 ， 像 计算 机 图 形 学 或 者 大 部 分 带 有 科学 性 质 的 问题 ， 那 么 更 常见 的 做 法 是 直接 使 
用 普通 的 浮 点 类 型 。 首 先 ， 在 真实 世界 中 极 少 有 什么 东西 需要 计算 到 小 数 点 后 17 位 
(float 提供 17 位 的 精度 )。 因此, 在 计算 中 引入 的 微小 误差 根本 就 不 足 挂 齿 。 其 次 ， 原 
生 的 浮 点 数 运算 性 能 要 快 上 许多 一 一 如 果 要 执行 大 量 的 计算 ， 那 性 能 问题 就 显得 很 重 
要 了 。 
也 就 是 说 我 们 无 法 完全 忽略 误差 。 数 学 家 花费 了 大 量 的 时 间 来 研究 各 种 算法 ， 其 中 一 
些 算法 的 误差 处 理 能 力 优 于 其 他 的 算法 。 我 们 同样 还 需要 对 类 似 相 减 抵消 (subtractive 
cancellation ) 以 及 把 大 数 和 小 数 加 在 一 起 时 的 情况 多 加 小 心 。 示 例如 下 : 

>>> nums = [1.23e+18, 1, -1.23e+18] 

>>> sum(nums) # Notice how 1 disappears 


0.0 
>>> 



















































































上 面 这 个 例子 可 以 通过 使 用 math.fsum0 以 更 加 精确 的 实现 来 解决 : 


>>> import math 
>>> math. fsum(nums) 
1.0 

>>> 























但 是 对 于 其 他 的 算法 ， 需 要 研究 算法 本 身 ， 并 理解 其 误差 传播 (error propagation ) 的 
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性 质 。 


综 上 所 述 ，decimal 模块 主要 用 在 涉及 像 金 融 这 一 类 业务 的 程序 中 。 在 这 样 的 程序 里 ， 
计算 中 如 果 出 现 微小 的 误差 是 相当 令 人 生 厌 的 。 因 此，decimal 模块 提供 了 一 种 规避 误 






































差 的 方式 。 当 用 Python 作 数 据 库 的 接口 时 也 会 常常 会 遇 到 Decimal 对 象 一 一 尤其 是 当 




















访问 金融 数据 时 更 是 如 此 。 


3.3 ”对 数值 做 格式 化 输出 


3.3.1 问题 


我 们 需要 对 数值 做 格式 化 输出 ， 包 括 控制 位 数 、 对 齐 、 包 含 千 位 分 隔 符 以 及 其 他 一 些 


H 


3.3.2 MAHR 


要 对 一 个 单独 的 数值 做 格式 化 输出 ， 


>>> x = 1234.56789 


使 月 





>>> # Two decimal places of accuracy 


>>> format (x, '0.2f') 
"1234.57" 


日 内 建 的 formatO 函数 即 可 。 示 例如 下 : 


>>> # Right justified in 10 chars, one-digit accuracy 


>>> format (x, '>10.1f') 
' 1234.6! 


>>> # Left justified 
>>> format (x, '<10.1f') 
1234.6 ' 


>>> # Centered 
>>> format (x, '%10.1f') 
' 1234.6 ' 


>>> # Inclusion of thousands separator 


>>> format (x, ',') 
'1,234.56789' 

>>> format (x, '0,.1f') 
"123456" 

>>> 











如 果 想 采用 科学 计数 法 ,只 要 把 f 改 为 e 或 者 E 即 可 ,根据 希望 采用 的 指数 规格 来 指定 。 
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示例 如 下 : 


>>> format (x, 'e') 
'1.234568e+03' 

>>> format (x, '0.2E') 
'1.23E+03' 

>>> 


以 上 两 种 情况 中 ， 指 定 宽度 和 精度 的 一 般 格式 为 [<>A]?widthL]?(digitsyz'， 这 里 width 
和 digits 为 整数 ， 而 ?代表 可 选 的 部 分 。 同 样 的 格式 也 可 用 于 字符 串 的 .format( 方 法 中 。 
示例 如 下 : 

>>> 'The value is {:0,.2f}'. format (x) 


'The value is 1,234.57' 
>>> 


3.3.3 讨论 
对 数值 做 格式 化 输出 通常 都 是 很 直接 的 。 本 节 展 示 的 技术 既 能 用 于 浮 点 型 数 ， 也 能 适 
用 于 decimal 模块 中 的 Decimal 对 象 。 


当 需 要 限制 数值 的 位 数 时 ， 数 值 会 根据 roundO 函 数 的 规则 来 进行 取 整 。 示 例如 下 : 


>>> x 

1234.56789 

>>> format (x, '0.1f' 
"1234.6! 

>>> format (-x, '0.1f' 
'-1234.6! 

>>> 












































对 数值 加 上 千 位 分 隔 符 的 格式 化 操作 并 不 是 特定 于 本 地 环境 的 。 如 果 需 要 将 这 个 需求 
纳入 考虑 ,应 该 考察 一 下 local FERPA PRA. IAAT VARI FFF BAY translate() 方 法 交换 
不 同 的 分 隔 字 符 。 示 例如 下 : 


>>> swap_separators = { ord('.'):',"', ord(','):'.' } 














>>> format (x, ',').translate(swap_separators) 
'1.234,56789' 
>>> 


在 很 多 Python 代码 中 ， 常 用 % 操 作 符 来 对 数值 做 格式 化 处 理 。 示 例如 下 : 


>>> '$0.2f' % x 
"1234.57! 

>>> 'S10.1f' % x 
"1234.6! 


>>> 'S-10.1f' % x 
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"1234.6 ' 
>>> 


这 种 格式 化 操作 仍然 是 可 接受 的 , 但 是 比 起 更 加 现代 化 的 format() 方 法 ， 这 种 方法 就 显 


得 不 是 那么 强大 了 。 比 如 说 ， 当 使 用 % 操 作 符 来 格式 化 数值 时 ， 有 些 功 能 就 没 法 得 到 支 
持 了 (例如 添加 千 位 分 隔 符 )。 








3.4 同 二 进 制 、 八 进 制 和 十 六 进 制 数 打交道 


3.4.1 问题 
我 们 需要 对 以 二 进 制 、 八 进 制 或 十 六 进 制 表示 的 数值 做 转换 或 输出 。 


3.4.2 ”解决 方案 
要 将 一 个 整数 转换 为 二 进 制 、 八 进 制 或 十 六 进 制 的 文本 字符 串 形式 ， 只 要 分 别 使 用 内 
建 的 bin()、oct0 〇 和 hex0 函 数 即 可 ， 示 例如 下 : 


>>> x = 1234 
>>> bin (x) 
"0b10011010010' 
>>> oct (x) 
"002322' 

>>> hex (x) 
'0x4d2' 

>>> 




















此 外 ， 如 果 不 希 望 出 现 0b Oo 或 者 0x 这 样 的 前 级 ， 可 以 使 用 format0) 函 数 。 示 例 
如 下 : 


>>> format (x, 'b') 


'10011010010' 

>>> format (x, 'o') 
12322" 

>>> format (x, 'x') 
TAg?" 


>>> 











整数 是 有 符号 的 ， 因 此 如 果 要 处 理 负 数 的 话 ， 输 出 中 也 会 带 上 一 个 符号 。 示 例如 下 : 


>>> x = -1234 

>>> format (x, 'b') 
'-10011010010' 
>>> format (x, 'x') 
'-4d2' 

>>> 
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相反 ， 如 果 需 要 产生 一 个 无 符号 的 数值 ， 需 要 加 上 最 大 值 来 设置 比特 位 的 长 度 。 比 如 ， 
要 展示 一 个 32 位 数 ， 可 以 像 这 样 实现 : 


>>> x = -1234 

>>> format (2**32 + x, 'b') 
'11111111111111111111101100101110' 
>>> format (2**32 + x, 'x') 
'fffffb2e' 

>>> 


要 将 字符 串 形 式 的 整数 转换 为 不 同 的 进 制 ， 只 需要 使 用 int0 函 数 再 配合 适当 的 进 制 即 
可 。 示 例如 下 : 


>>> int('4d2', 16) 

1234 

>>> int('10011010010', 2) 
1234 

>>> 














3.4.3 讨论 
对 于 大 部 分 的 情况 ， 处 理 二 进 制 、 八 进 制 和 十 六 进 制 数 都 是 非常 直接 的 。 只 是 需要 记 
住 ， 这 些 转换 只 适用 于 转换 整数 的 文本 表示 形式 ， 实 际 在 底层 只 有 一 种 整数 类 型 。 
最 后 ， 对 于 那些 用 到 了 八进制 数 的 程序 员 来 说 还 有 一 个 地 方 需要 注意 。 在 Python 中 指 
定 八 进 制 数 的 语法 和 许多 其 他 编程 语言 稍 有 不 同 。 比 方 说 ， 如 果 试 着 做 如 下 的 操作 ， 
则 会 得 到 一 个 语法 错误 : 

>>> import os 

>>> os.chmod('script.py', 0755) 


File "<stdin>", line 1 
os.chmod('script.py', 0755) 


A 















































SyntaxError: invalid token 
>>> 








F 


请 确保 在 八进制 数 前 添加 Oo 前 级 ， 就 像 这 样 : 


>>> os.chmod('script.py', 00755) 
>> 


3.5 ”从 字 闻 串 中 打包 和 解 包 大 整数 


3.5.1 问题 
我 们 有 一 个 字 节 串 ， 需 要 将 其 解 包 为 一 个 整 型 数值 。 此 外 ， 还 需要 将 一 个 大 整数 重新 
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ao 


FRAT FA 


3.5.2 ”解决 方案 


假设 程序 需要 处 理 一 个 有 着 16 个 元 素 的 字 节 串 ， 其 中 保存 着 一 个 128 位 的 整数 。 示 例 
如 下 : 


data = b'\x00\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\x004' 


要 将 字 节 解释 为 整数 ， 可 以 使 用 intfrom_bytes0， 然 后 像 这 样 指定 字 节 序 即 可 : 


>>> len (data) 

16 

>>> int.from bytes (data, 'little') 
69120565665751139577663547927094891008 
>>> int.from_bytes (data, 'big') 
94522842520747284487117727783387188 
>>> 


o 











BER — TR BAC HARA SB, n DASE int.to_bytesQ WIE, RETEST BOS 
节 序 即 可 。 示 例如 下 : 


>>> x = 94522842520747284487117727783387188 

>>> x.to_bytes(16, 'big') 
b'\x00\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\x004' 
>>> x.to_bytes(16, 'little') 
b'4\x00#\x00\x01\xef\xcd\x00\xab\x90x\x00V4\x12\x00' 
>> 


3.5.3 Wit 
在 大 整数 和 字 节 串 之 间 互 相 转换 并 不 算是 常见 的 操作 。 但 是 ， 有 时 候 在 特定 的 应 用 领 
域 中 却 有 这 样 的 需求 ， 例 如 加 密 技术 或 网 络 应 用 中 。 比 方 说 IPv6 网 络 地 址 就 是 由 一 个 
128 位 的 整数 来 表示 的 。 如 果 正 在 编写 的 代码 需要 将 这 样 的 值 从 数据 记录 中 提取 出 来 ， 
就 得 面 对 这 个 问题 。 
作为 本 节 中 技术 的 替代 方案 , 我 们 可 能 会 倾向 于 使 用 struct 模块 来 完成 解 包 , 具体 可 参 
WL 6.11 节 。 这 行 得 通 ， 但 是 struct 模块 可 解 包 的 整数 大 小 是 有 限制 的 。 因 此 ， 需 要 解 
包 多 个 值 ， 然 后 再 将 它们 合并 起 来 以 得 到 最 终 的 结果 。 示 例如 下 : 

>>> data 

b'\x00\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\x004' 

>>> import struct 

>>> hi, lo = struct.unpack('>QQ', data) 

>>> (hi << 64) + lo 


94522842520747284487117727783387188 
>>> 























数字 、 日 期 和 时 间 91 

















字 节 序 的 规范 〈 大 端 或 小 端 ) 指定 了 组 成 整数 的 字 节 是 从 低位 到 高 位 排列 还 是 从 高 位 
到 低位 排列 。 只 要 我 们 精心 构造 一 个 十 六 进 制 数 ， 就 能 很 容易 看 出 这 其 中 的 意义 : 


>>> x = 0x01020304 

>>> x.to_bytes(4, 'big') 
b'\x01\x02\x03\x04' 

>>> x.to_bytes(4, 'little') 
b'\x04\x03\x02\x01' 

>>> 














如 果 尝 试 将 一 个 整数 打包 成 字 节 串 ， 但 字 节 大 小 不 合适 的 话 就 会 得 到 一 个 错误 信息 。 
如 果 需 要 的 话 ， 可 以 使 用 int.bit_length0 方 法 来 确定 需要 用 到 多 少 位 才能 保存 这 个 值 : 


>>> x = 523 ** 23 
>>> x 
335381300113661875107536852714019056160355655333978849017944067 
>>> x.to_bytes(16, 'little') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
OverflowError: int too big to convert 
>>> x.bit_length () 
208 
>>> nbytes, rem = divmod(x.bit_length(), 8) 
>>> if rem: 

nbytes += 1 


>> 

>>> x.to_bytes (nbytes, 'little') 
b'\x03X\x£1\x82iT\x96\xac\xc7c\x16\xf3\xb9\xcf...\xd0' 
>>> 


36 复数 运算 


3.6.1 问题 

我 们 的 代码 在 同 最 新 的 Web 认证 方案 交互 时 遇 到 了 奇 点 ( singularity ) 问题 ， 而 唯一 的 
解决 方案 是 在 复 平 面 解 决 。 或 者 也 许 只 需要 利用 复数 完成 一 些 计 算 就 可 以 了 。 

3.6.2 ”解决 方案 

复数 可 以 通过 complex(real，imag) 函 数 来 指定 ， 或 者 通过 浮 点 数 再 加 上 后 绥 j 来 指定 也 
行 。 示 例如 下 : 


>>> a = complex(2, 4) 






































>>> b = 3 - 5j 


>>> a 
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(2+4j) 
>>> b 
(3-53) 
>>> 


KAB, HERB BSCE AY WAAR Te EO, RAAT : 


>>> a.real 

2.0 

>>> a.imag 

4.0 

>>> a.conjugate () 
(2-43) 

>>> 


此 外 ， 所 有 常见 的 算术 运算 操作 都 适用 于 复数 : 


>>> a + b 

(5-13) 

>>> a *b 

(26+24) 

>>> a/b 
(-0.4117647058823529+0.64705882352941184) 
>>> abs (a) 

4.47213595499958 

>>> 


最 后 ， 如 果 要 执行 有 关 复 数 的 函数 操作 ,例如 求 正弦 、 余 弦 或 平方 根 ， 可 以 使 用 cmath 
模块 : 


>>> import cmath 








>>> cmath.sin (a) 
(24.83130584894638-11.3566127112181743) 
>>> cmath.cos (a) 
(-11.36423470640106-24.814651485634187}) 
>>> cmath.exp (a) 
(-4.829809383269385-5.5920560936409816j) 
>>> 


3.6.3 讨论 
Python 中 大 部 分 和 数学 相关 的 模块 都 可 适用 于 复数 。 例 如 ， 如 果 使 用 numpy 模块 ， 可 
以 很 直接 地 创建 复数 数组 ， 并 对 它们 执行 操作 : 

>>> import numpy as np 


>>> a = np.array ([2+3j, 4+5j, 6-7j, 8+9j]) 
>> a 
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array([ 2.+3.j, 4.+5.j, 6.-7.9, 8.+9.4]) 

>> at 2 

array([ 4.+3.j, 6.+5.j, 8.-7.j, 10.+9.3]) 

>>> np.sin(a) 

array([ 9.15449915 -4.16890696j, -56.16227422 -48.50245524j, 
-153.20827755-526.47684926j, 4008.42651446-589.499483733]) 

>>> 





Python 中 的 标准 数学 函数 默认 情况 下 不 会 产生 复数 值 ， 因 此 像 这 样 的 值 不 会 意外 地 出 
现在 代码 里 。 例 如 : 


>>> import math 

>>> math.sqrt (-1) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ValueError: math domain error 


>>> 





如 果 和 希望 产生 复数 结果 ， 那 必须 明确 使 用 cmath 模块 或 者 在 可 以 感知 复数 的 库 中 声明 
对 复数 类 型 的 使 用 。 示 例如 下 : 











>>> import cmath 
>>> cmath. sqrt (-1) 
1j 


>>> 


3.7 ”处 理 无 穷 大 和 NaN 


3.7.1 问题 
我 们 需要 对 浮 点 数 的 无 穷 大 、 负 无 穷 大 或 NaN (not a number ) 进行 判断 测试 。 


3.7.2 解决 方案 
Python 中 并 没有 特殊 的 语法 用 来 表示 这 些 特殊 的 浮 点 数值 ， 但 是 它们 可 以 通过 flloat() 
来 创建 。 示例 如 下 : 




















a = float('inf') 

>>> b = float ('-inf') 
c = float ('nan') 
a 
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要 检测 是 否 出 现 了 这 些 值 ， 可 以 使 用 math isinf() Al math.isnan() PAA. ANIL FE : 


>>> math.isinf (a) 
True 
>>> math.isnan(c) 
True 
>>> 


3.7.3 ”讨论 
要 获得 关于 这 些 特 殊 的 浮 点 数值 的 详细 信息 ,应 该 参考 IEEE 754 规范 。 但 是 , 这 里 
有 几 个 坏 手 的 细节 问题 需要 摘 清 楚 ， 尤 其 是 当 涉及 比较 操作 和 操作 符 时 可 能 出 现 的 


问题 。 
无 穷 大 值 在 数学 计算 中 会 进行 传播 。 例 如 : 


>>> a = float('inf') 
>>> a + 45 


>>> a * 10 


>>> 10 / a 




















但 是 ， 某 些 特定 的 操作 会 导致 未 定义 的 行为 并 产生 NaN 的 结果 。 例 如 : 


>>> a = float('"inf') 
>>> a/a 

nan 

>>> b = float ('-inf') 
>>> a + b 

nan 


>>> 


NaN 会 通过 所 有 的 操作 进行 传播 ， 且 不 会 引发 任何 异常 。 例 如 : 


>>> c = float('nan') 








>>> C + 23 
nan 
>>> c / 2 
nan 


>>> C * 2 
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nan 
>>> math.sqrt (c) 
nan 
>> 





有 关 NaN， 一 个 微妙 的 特性 是 它们 在 做 比较 时 从 不 会 被 判定 为 相等 。 例 如 : 


>>> c = float ('nan') 
>>> d = float ('nan') 
>>> c = d 

False 

>>> c is d 

False 

>>> 




















正 因 为 如 此 ， 唯 一 安全 检测 NaN 的 方法 是 使 用 math.isnan()， 正 如 本 节 示 例 代码 中 











的 那样 。 








有 时 候 程序 员 希 望 在 出 现 无 穷 大 或 NaN 结果 时 可 以 修改 Python 的 行为 ,让 它 抛 出 异常 。 








fpectl 模块 可 以 用 来 调整 这 个 行为 , 但 是 在 标准 Python 中 它 是 没有 开启 的 , 而 且 这 个 模 


块 是 同 平台 相关 的 ， 


只 针对 专家 级 的 程序 员 使 





F 








月。 可 以 参见 Python 在 线 文档 


( http://docs.python.org/3/library/fpectl.html ) 以 获得 进一步 的 细节 。 


3.8 分数 的 计算 


3.8.1 问题 


仿佛 进入 时 光 机 一 样 ， 我 们 突然 发 现 自己 在 做 涉及 分 数 处 理 的 小 学 家 庭 作 业 。 或 者 也 
许 我 们 正在 为 自己 的 木材 商店 编写 测量 计算 方面 的 代码 。 


3.8.2 解决 方案 





fractions 模块 可 以 用 来 处 理 涉及 分 数 的 数学 计算 问题 。 示 例如 下 : 


>>> from fractions import Fraction 


>>> a = Fraction(5, 4) 
>>> b = Fraction(7, 16) 


>>> print(a + b) 
27/16 
>>> print(a * b) 
35/64 


>>> # Getting numerator/denominator 


>>> C = axDb 
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>>> c.numerator 
35 


>>> c.denominator 


64 

>>> # Converting to a float 
>>> float (c) 

0.546875 


>>> # Limiting the denominator of a value 
>>> print (c.limit_denominator (8) ) 
4/7 


>>> # Converting a float to a fraction 
>>> x = 3.75 

>>> y = Fraction(*x.as_integer_ratio()) 
>>> y 

Fraction(15, 4) 

>>> 


3.8.3 讨论 


在 大 多 数 程序 中 ， 涉 及 分 数 的 计算 问题 并 不 常见 。 但 是 在 有 些 场景 中 使 用 分 数 还 是 有 














道理 的 。 比 如 ， 人 允许 程序 接受 以 分 数 形式 给 出 的 单位 计量 并 执行 相应 的 计算 ， 这 样 可 





以 避免 用 户 手动 将 数据 转换 为 Decimal 对 象 或 浮 点 数 。 


3.9 ”处 理 大 型 数组 的 计算 


3.9.1 问题 
我 们 需要 对 大 型 的 数据 集 比如 数组 或 网 格 ( grid ) 进行 计算 。 


3.9.2 ”解决 方案 








对 于 任何 涉及 数组 的 计算 密集 型 任务 ,请 使 用 NumPy 库 。NumPy 的 主要 特 怕 








是 为 


Python 提供 了 数组 对 象 ， 比 标准 Python 中 的 列表 有 着 更 好 的 性 能 表现 ， 因 此 更 加 适合 
于 做 数学 计算 。 下 面 是 一 个 简短 的 示例 ， 用 来 说 明 列 表 同 NumPy 数组 在 行为 上 的 几 个 

















重要 不 同 之 处 ， 


>>> # Python lists 
>>> x = [1, 2, 3, 4] 
>>> y = [5, 6, 7, 8] 


>>> x * 2 
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[1, 2, 3, 4, 1, 2, 3, 4] 
>>> x + 10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate list (not "int") to list 
>>> x+ y 
[1, 2, 3, 4, 5, 6, 7, 8] 


>>> # Numpy arrays 

>>> import numpy as np 

>>> ax = np.array([1, 2, 3, 4]) 
>>> ay = np.array([{5, 6, 7, 8]) 
>>> ax * 2 

array([2, 4, 6, 8]) 

>>> ax + 10 

array([11, 12, 13, 14]) 

>>> ax + ay 

array 6, 8, 10, 12]) 

>>> ax * ay 

array On Ldyrad La 13213) 











可 以 看 到 ， 有 关 数 组 的 几 个 基本 数学 运算 在 行为 上 都 有 所 不 同 。 特 别 是 ，NumPy 中 的 
数组 在 进行 标量 运算 (例如 ax *2 Max + 10 ) 时 是 针对 逐个 元 素 进行 计算 的 。 此 外 ， 
当 两 个 操作 数 都 是 数组 时 ，NumPy 数组 在 进行 数学 运算 时 会 针对 数组 的 所 有 元 素 进行 





计算 ， 并 产生 出 一 个 新 的 数组 作为 结果 。 

















常 简单 和 快速 。 比 方 说 ， 如 果 想 计算 多 项 式 的 值 : 


>>> def f(x): 


return 3*x**2 = 2xX + 7 


>>> f(ax) 
array([ 8, 15, 28, 47]) 
>>> 





NumPy 提供 了 一 些 “ 通 用 函数 ”的 集合 ， 它 们 也 能 对 数组 进行 操作 。 
作为 math 模块 中 所 对 应 函数 的 替代 。 示 例如 下 : 


>>> np.sqrt (ax) 

array([ 1. , 1.41421356, 1.73205081, 2. ]) 

>>> np.cos (ax) 

array([ 0.54030231, -0.41614684, -0.9899925 , -0.65364362]) 
>>> 























由 于 数学 操作 会 同时 施加 于 所 有 的 元 素 之 上 ， 这 一 事实 使 得 对 整个 数组 的 计算 变 得 非 


EN 


数 可 
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使 用 NumPy 中 的 通用 函数 ， 其 效率 要 比 对 数组 进行 迭代 然后 使 用 math 模块 中 的 函数 








每 次 只 处 理 一 个 元 素 快 上 百倍 。 


在 底层 , NumPy 数组 的 内 存 分 
存 , 由 同一 种 类 型 的 数据 组 成 。 












































因此 ， 只 要 有 可 能 就 应 该 使 用 这 些 通用 函数 。 


配方 式 和 C 或 者 Fortran 一 样 。 即 , 它们 是 大 块 的 连续 内 
正 是 因为 这 样 ，NumPy 才能 创建 比 通常 Python 中 的 列 
AKA 


表 要 大 得 多 的 数组 。 例 如 ， 如 果 想 创建 一 个 10000 x 10000 的 二 维 浮 点 数组 ， 这 根本 不 

















是 问题 : 


>>> grid = np.zeros (shape=(10 


>>> grid 


atray TE Os Qe 0 as 
PO Oa OR sari 


>>> 


所 有 的 常用 操作 仍然 可 以 同时 施加 于 所 有 的 元 素 之 上 : 


>>> grid += 10 


>>> grid 
array([[ 10., 10., 
A 0 了 
F 0 r 
oa 
0 F 0 了 
ae 0., 
0., Oy 


























>>> np.sin(grid 
array ([[-0.5440 
-0.5440 


-0.5440 


> > > 
BO. BO: BOO: BO BO. 
































| 
on 
~ 
~ 
> > > > > > 
Be MH Ww WH HY LH 


>>> 




















> > > > > > 
hme MH WH WH NH LH 








> > > > > > 
mm DD 








000,10000), dtype=float) 



























































0.5440 


0.5440 


0.5440 


0.5440 


0.5440 








0.5440 
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关于 NumPy， 一 个 特别 值得 提起 的 方面 就 是 NumPy 扩展 了 Python 列表 的 索引 功能 
一 一 尤其 是 针对 多 维 数组 时 更 是 如 此 。 为 了 说 明 ， 我 们 先 构造 一 个 简单 的 二 维 数组 然 
后 做 些 试验 : 


>>> a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]] 
>>> a 
array([[ 1, 2, 3, 4], 

[Sy 6p Tp 81, 

{[ 9, 10, 11, 12]]) 





>>> # Select row 1 
>>> a[l] 


array([5, 6, 7, 8]) 


>>> # Select column 1 
>>> a[:,1] 


array([ 2, 6, 10]) 


>>> # Select a subregion and change it 


>>> a[l:3, 1:3 





array 6, 7], 

10, 11]]) 
>>> a[1:3, 1:3] += 10 
>>> a 








array 1, 2, 3, 4], 
By. 16, Ly Shy 
9, 20; 21, 12] 7) 





>>> # Broadcast a row vector across an operation on all rows 
>>> a + [100, 101, 102, 103] 

array([[101, 103, 105, 107], 

105, 117, 119, 111], 

109, 121, 123, 115]]) 

>>> a 
array([[ 1, 2, 3, 4], 

5, 16, 17, 8], 
9, 20, 21, 12]]) 





>>> # Conditional assignment on an array 
>>> np.where(a < 10, a, 10) 
array([[ 1, 2, 3, 4], 
[ 5, 10, 10, 8], 
[ 9, 10, 10, 10]]) 
>>> 
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3.9.3 Wit 
Python 中 大 量 的 科学 和 工程 类 函数 库 都 以 NumPy 作为 基础 , 它 也 是 广泛 使 用 中 的 最 为 
庞大 和 复杂 的 模块 之 一 。 尽 管 如 此 , 对 于 NumPy 我 们 还 是 可 以 从 构建 简单 的 例子 开始 ， 
逐步 试验 ， 最 后 实现 一 些 有 用 的 应 用 。 


提 到 NumPy 的 用 法 , 一 个 相对 来 说 比较 常见 的 导入 方式 是 import numpy as np, 正如 我 
们 给 出 的 示例 中 那样 ， 这 么 做 缩短 了 名 称 ， 方 便 我 们 每 次 在 程序 中 输入 。 


要 获得 更 多 信息 ， 一 定 要 去 看 看 NumPy 的 官方 站 点 http://www.numpy.org。 


3.10 和 矩阵 和 线性 代数 的 计算 


3.10.1 问题 
我 们 需要 执行 算 阵 和 线性 代数 方面 的 操作 ， 比 如 和 矩阵 乘法 、 求 行列 式 、 解 线性 方程 等 。 


3.10.2 解决 方案 

NumPy 库 中 有 一 个 matrix 对 象 可 用 来 处 理 这 种 情况 。Matrix 对 象 和 3.9 节 中 描述 的 
数组 对 象 有 些 类 似 ， 但 是 在 计算 时 遵循 线性 代数 规则 。 下 面 的 例子 展示 了 几 个 重要 
的 特性 : 


>>> import numpy as np 
>>> m = np.matrix([[1,-2,3],[0,4,5],[7,8,-9]]) 
















































































>>> m 

matrix([[ 1, -2, 3], 
[ 0, 4, 5], 
[ 7, 8, -9]]) 


>>> # Return transpose 
>>> m.T 

matrix([[ 1, 

[-2, 4, 8], 

[ 3, 5, -9]]) 


>>> # Return inverse 

>>> m.I 

matrix([[ 0.33043478, -0.02608696, 0.09565217], 
[-0.15217391, 0.13043478, 0.02173913], 
[ 0.12173913, 0.09565217, -0.0173913 ]]) 


>>> # Create a vector and multiply 
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>>> v = np.matrix([[2],[3],[4]]) 
>>> v 

matrix([[2], 

3], 

4]]) 

>>> m*v 
matrix([[ 8], 
32], 
211) 





>>> 


更 多 的 操作 可 在 numpy.linalg 子 模块 中 找到 。 例 如 : 


>>> import numpy.linalg 


>>> # Determinant 
>>> numpy.linalg.det (m) 
-229.99999999999983 


>>> # Eigenvalues 
>>> numpy.linalg.eigvals (m) 
array ([-13.11474312, 2.75956154, 6.35518158]) 


>>> # Solve for x in mx = v 

>>> x = numpy.linalg.solve(m, v) 
>>> x 

matrix([[ 0.96521739], 
0.17391304], 
0.46086957]]) 

>>> m* x 
matrix([[ 2.], 
3.1, 
4.]]) 
>>> v 


matrix([[2], 





>>> 


3.10.3 讨论 
显然 ， 线 性 代数 是 个 庞大 的 课题 ， 远 超出 了 本 书 的 范围 。 但 是 ， 如 果 需 要 处 理 和 矩阵 
和 向 量 ，NumPy 是 个 很 好 的 起 点 。 请 访问 http://www.numpy.org 以 获得 更 多 详细 的 


oJ 
Auto 
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3.11 随机 选择 


3.11.1 问题 
我 们 想 从 序列 中 随机 挑选 出 元 素 ， 或 者 想 生成 随机 数 。 


3.11.2 ”解决 方案 


random 模块 中 有 各 种 函数 可 用 于 需要 随机 数 和 随机 选择 的 场景 。 例 如 ， 要 从 序列 中 随 
机 挑选 出 元 素 ， 可 以 使 用 random.choice(): 


>>> import random 





>>> values = [1, 2, 3, 4, 5, 6] 


>>> random.choice (values) 


>>> random.choice (values) 


>>> random.choice (values) 


>>> random.choice (values) 





>>> random.choice (values) 




















如 果 想 取样 出 N 个 元 素 , 将 选 出 的 元 素 移 除 以 做 进一步 的 考察 , 可 以 使 用 random.sample0: 


>>> random.sample(values, 2) 
6, 2] 
>>> random.sample(values, 2) 
4, 3] 
>>> random.sample(values, 3) 
4, 3, 1] 
>>> random.sample(values, 3) 


5, 4, 1] 

















如 果 只 是 想 在 序列 中 原 地 打 乱 元 素 的 顺序 ( 洗 牌 )， 可 以 使 用 random.shuffle( : 


>>> random.shuffle (values) 





>>> values 
[2, 4, 6, 5, 3, 1] 
>>> random. shuffle (values) 


>>> values 
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[3, 5, 2, 1, 6, 4] 
>>> 








要 产生 随机 整数 ， 可 以 使 用 random.randint0) : 


>>> random.randint (0,10) 
>>> random. randint (0,10) 
>>> random. randint (0,10) 
>>> random. randint (0,10) 


>>> random.randint (0,10) 








>>> random.randint (0,10) 


>>> 





要 产生 0 到 1 之 间 均 匀 分 布 的 浮 点 数值 ， 可 以 使 用 random.random(): 


>>> random.random() 
0.9406677561675867 
>>> random. random () 
0.133129581343897 
>>> random.random() 
0.4144991136919316 
>>> 


如 果 要 得 到 由 N 个 随机 比特 位 所 表示 的 整数 ， 可 以 使 用 random.getrandbits(): 


>>> random.getrandbits (200) 
335837000776573622800628485064121869519521710558559406913275 
>> 


3.11.3 ”讨论 

random 模块 采用 马 特 赛 特 旋 转 算法 (Mersenne Twister， 也 称 为 梅森 旋转 算法 ) 来 计算 
随机 数 。 这 是 一 个 确定 性 算法 ,但 是 可 以 通过 random.seed0 函 数 来 修改 初始 的 种 子 值 。 
示例 如 下 : 


random. seed () # Seed based on system time or os.urandom() 





random. seed (12345) # Seed based on integer given 
random.seed(b'bytedata') # Seed based on byte data 


除了 以 上 展示 的 功能 外 ，random 模块 还 包含 有 计算 均匀 分 布 、 高 斯 分 布 和 其 他 概率 分 
布 的 函数 。 比 如 ，random.uniform() 可 以 计算 均匀 分 布 值 ， 而 random.gaussO0 则 可 计算 出 
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ESSE. TEES WAAR AS Tb TSC RFD A ARE E o 


random 模块 中 的 函数 不 应 该 用 在 与 加 密 处 理 相 关 的 程序 中 。 如 果 需 要 这 样 的 功能 ， 考 
上 处 使 用 ssl 模块 中 的 函数 来 蔡 代 。 例 如 ，ssLRAND_bytes0 可 以 用 来 产生 加 密 安 全 的 随 
机 字 节 序列 。 











3.12 “时间 换算 


3.12.1 问题 
我 们 的 代码 需要 进行 简单 的 时 间 转 换 工 作 ， 比 如 将 日 转换 为 秒 ， 将 小 时 转换 为 分 钟 等 。 
3.12.2 ”解决 方案 


我 们 可 以 利用 datetime 模块 来 完成 不 同时 间 单位 间 的 换算 。 例 如 ， 要 表示 一 个 时 间 间 
隔 ， 可 以 像 这 样 创建 一 个 timedelta 实例 : 


>>> from datetime import timedelta 








>>> a = timedelta(days=2, hours=6) 
>>> b = timedelta (hours=4.5) 
>> c=atb 

>>> c.days 

2 

>>> c.seconds 

37800 

>>> c.seconds / 3600 

10.5 

>>> c.total_seconds() / 3600 
58.5 

>>> 


如 果 需 要 表示 特定 的 日 期 和 时 间 ， 可 以 创建 datetime 实例 并 使 用 标准 的 数学 运算 来 操 
纵 它们 。 示 例如 下 : 


>>> from datetime import datetime 
>>> a = datetime (2012, 9, 23) 

>>> print (a + timedelta (days=10)) 
2012-10-03 00:00:00 

>>> 

>>> b = datetime(2012, 12, 21) 
>> d=b-a 

>>> d.days 

89 

>>> now = datetime.today () 
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>>> print (now) 

2012-12-21 14:54:43.094063 

>>> print (now + timedelta (minutes=10) ) 
2012-12-21 15:04:43.094063 

>>> 











当 执 行 计算 时 ， 应 该 要 注意 的 是 datetime 模块 是 可 正确 处 理 闵 年 的 。 示 例如 下 : 


>>> a = datetime(2012, 3, 1) 
>>> b = datetime(2012, 2, 28) 
>>> a- D 
datetime.timedelta (2) 

>>> (a - b).days 


>>> c = datetime (2013, 3, 1) 
>>> d = datetime (2013, 2, 28) 
>>> (c - d).days 


3.12.3 讨论 


对 于 大 部 分 基本 的 日 期 和 时 间 操 控 问 题 ，datetime 模块 已 足够 满足 要 求 了 。 如 果 需 要 处 
理 更 为 复杂 的 日 期 间 题 ， 比 如 处 理 时 区 、 模 糊 时 间 范 围 、 计 算 节 日 的 日 期 等 ， 可 以 试 
试 dateutil 模块 。 


为 了 举例 说 明 ， 可 以 使 用 dateutil.relativedelta() 函 数 完成 许多 同 datetime 模块 相似 的 时 


间 计算 。 然 而 , dateutil 的 一 个 显著 特点 是 在 处 理 有 关 月 份 的 问题 时 能 





























模块 留 下 的 空缺 〈 可 正确 处 理 不 同月 份 中 的 天 数 )。 示 例如 下 : 


>>> a = datetime(2012, 9, 23) 
>>> a + timedelta(months=1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'months' is an invalid keyword argument for this function 
>>> 


>>> from dateutil.relativedelta import relativedelta 
>>> a + relativedelta (months=+1) 
datetime.datetime (2012, 10, 23, 0, 0) 

>>> a + relativedelta(months=+4) 
datetime.datetime (2013, 1, 23, 0, 0) 

>> 


>>> # Time between two dates 
>>> b = datetime(2012, 12, 21) 
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>>> d=b-a 

>>> d 
datetime.timedelta (89) 

>>> d = relativedelta(b, a) 
>>> d 
relativedelta(months=+2, days=+28) 
>>> d.months 

2 

>>> d.days 

28 

>>> 


3.13 计算 上 周 5 的 日 期 


3.13.1 问题 
我 们 希望 有 一 个 通用 的 解决 方案 能 找 出 一 周 中 上 一 次 出 现 某 天 时 的 日 期 。 比 方 说 上 周 




















五 是 几 月 几 号 ? 


3.13.2 解决 方案 


Python 的 datetime 模块 中 有 一 些 实用 函数 和 类 可 以 帮助 我 们 完成 这 样 的 计算 。 关 于 这 
个 问题 ， 一 个 优雅 、 通 用 的 解决 方案 看 起 来 是 这 样 的 : 














from datetime import datetime, timedelta 


weekdays = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
"Friday', 'Saturday', 'Sunday'] 


def get_previous_byday(dayname, start_date=None) : 
if start_date is None: 
start_date = datetime.today () 
day_num = start_date.weekday () 
day_num_target = weekdays. index (dayname) 
days_ago = (7 + day_num - day_num_target) % 7 
if days_ago == 
days_ago = 7 
target_date = start_date - timedelta(days=days_ago) 


return target_date 


在 交互 式 解释 器 环境 中 使 用 这 个 函数 看 起 来 是 这 样 的 : 


>>> datetime.today() # For reference 
datetime.datetime (2012, 8, 28, 22, 4, 30, 263076 
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>>> get_previous_byday ('Monday') 

datetime.datetime (2012, 8, 27, 22, 3, 57, 29045) 

>>> get_previous_byday('Tuesday') # Previous week, not today 
datetime.datetime(2012, 8, 21, 22, 4, 12, 629771) 

>>> get_previous_byday ('Friday') 

datetime.datetime(2012, 8, 24, 22, 5, 9, 911393) 

>>> 


可 选 的 start_date 参数 可 以 通过 另 一 个 datetime 实例 来 提供 。 例 如 : 


>>> get_previous_byday('Sunday', datetime(2012, 12, 21) 
datetime.datetime (2012, 12, 16, 0, 0) 
>> 


3.13.3 讨论 

上 面 的 解决 方案 将 起 始 日 期 和 目标 日 期 映射 到 它们 在 一 周 之 中 的 位 置 上 (周一 为 第 0 
天 ， 依 此 类 推 )。 然 后 用 取 模 运算 计算 上 一 次 目标 日 期 出 现时 到 起 始 日 期 为 止 一 共 经 
过 了 多 少 天 。 之 后 ， 从 起 始 日 期 中 减 去 一 个 合适 的 timedelta 实例 就 得 到 了 我 们 所 要 
的 日 期 fe} 

如 果 需 要 执行 大 量 类 似 的 日 期 计算 , 最 好 安装 python-dateutil 包 。 例如 ， 下 面 这 个 例子 
是 使 用 dateutil 模块 中 的 relativedelta0) 函 数 来 执行 同样 的 计算 : 


>>> from datetime import datetime 























>>> from dateutil.relativedelta import relativedelta 
>>> from dateutil.rrule import * 

>>> d = datetime.now() 

>>> print (d) 

2012-12-23 16:31:52.718111 


>>> # Next Friday 

>>> print(d + relativedelta (weekday=FR) ) 
2012-12-28 16:31:52.718111 

>>> 


>>> # Last Friday 

>>> print (d + relativedelta (weekday=FR(-1) )) 
2012-12-21 16:31:52.718111 

>>> 


3.14 ” 找 出 当月 的 日 期 范围 


3.14.1 问题 
我 们 有 一 些 代码 需要 循环 迭代 当月 中 的 每 个 日 期 ， 我们 需要 一 种 高 效 的 方法 来 计算 出 
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日 期 的 范围 。 
3.14.2 ”解决 方案 





对 日 期 进行 循环 和 代 并 不 需要 事先 构建 一 个 包含 所 有 日 期 的 列表 。 只 需 计算 出 范围 的 


开始 和 结束 日 期 ， 然 后 在 迭代 时 利用 datetime.timedelta 对 象 来 递增 日 

















期 就 可 以 了 。 





下 面 这 个 函数 可 接受 任意 的 datetime 对 象 ， 并 返回 一 个 包含 本 月 第 一 天 和 下 个 月 第 一 


天 日 期 的 元 组 。 示 例如 下 : 


from datetime import datetime, date, timedelta 
import calendar 


def get_month_range(start_date=None) : 
if start_date is None: 


start_date = date.today().replace (day=1) 


_, days_in_month = calendar.monthrange(start_date.year, start_date.month) 


end_date = start_date + timedelta (days=days_in_month) 
return (start_date, end_date) 


当 准 备 好 这 个 函数 后 ， 对 日 期 范围 做 循环 迭代 就 变 得 非常 简单 了 : 


>>> a_day = timedelta (days=1) 
>>> first_day, last_day = get_month_range () 
>>> while first_day < last_day: 
print (first_day) 
first_day += a_day 
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3.14.3 ”讨论 

















上 面 的 代码 首先 计算 出 相应 月 份 中 第 一 天 的 日 期 。 一 种 快速 求解 的 方法 是 利用 date 或 
者 datetime 对 象 的 replace() 方 法 ,只 要 将 属性 days 设 为 1 就 可 以 了 。 关 于 replace() 方 法 ， 
一 个 好 的 方面 就 是 它 创 建 出 的 对 象 和 我 们 的 输入 对 象 类 型 是 一 致 的 。 因 此 ， 如 果 输 入 









































到 的 也 是 datetime 实例 。 


是 一 个 date 实例 ， 那 得 到 的 结果 也 是 date 实例 。 同 样 ， 如 果 输 入 是 datetime 实例 ， 得 
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此 外 ， 我 们 用 calendarmonthrangeO 函 数 来 找 出 待 求解 的 月 份 中 有 多 少 天 。 当 需要 得 到 有 
关 日 历 方面 的 基本 信息 时 ，calendar 模块 都 会 非常 有 用 。monthrange0 是 其 中 唯一 的 一 个 
可 返回 元 组 的 函数 ， 元 组 中 包含 当月 第 一 个 工作 日 的 日 期 以 及 当月 的 天 数 (28 ~ 31 )。 
一 旦 知道 了 这 个 月 中 有 多 少 天 ， 那 么 结束 日 期 就 可 以 通过 在 起 始 日 期 上 加 上 一 个 合适 
的 timedelta 对 象 来 表示 。 尽 管 很 微不足道 ， 但 本 节 给 出 的 解决 方案 中 一 个 重要 的 方面 
就 是 结束 日 期 并 不 包含 在 范围 内 ( 因为 它 实 际 上 是 下 个 月 的 第 一 天 )。 这 刚好 应 对 了 
Python 中 切片 和 range 操作 的 行为 ， 这 些 操作 永远 不 会 将 结束 点 包含 在 内 。 

要 循环 迭代 日 期 范围 ， 我 们 这 里 采用 了 标准 的 算术 以 及 比较 操作 符 。 比 如 ，timedelta 
实例 可 用 来 递增 日 期 ， 而 < 操作 符 用 来 检查 当前 日 期 是 否 超过 了 结束 日 期 。 

最 理想 的 方法 是 创建 一 个 专门 处 理 日 期 的 函数 ,而 且 用 法 和 Python 内 建 的 range0 一 样 。 
幸运 的 是 ， 用 生成 器 来 实现 这 样 一 个 函数 真 的 是 非常 容易 : 


def date_range(start, stop, step): 





































































































while start < stop: 
yield start 
start += step 


下 面 是 使 用 这 个 函数 的 示例 : 


>>> for d in date range (datetime (2012, 9, 1), datetime (2012,10,1), 
timedelta (hours=6)): 
print (d) 


2012-09-01 00:00:00 
2012-09-01 06:00:00 
2012-09-01 12:00:00 
2012-09-01 18:00:00 
2012-09-02 00:00:00 
2012-09-02 06:00:00 


>>> 





这 里 要 再 一 次 说 明 ， 之 所 以 上 述 实现 会 如 此 简单 ， 一 个 很 重要 的 原因 就 在 于 日 期 和 时 
间 可 以 通过 标准 的 算术 和 比较 操作 符 来 进行 操作 。 
3.15 “将 字符 串 转 换 为 日 期 


3.15.1 问题 
我 们 的 应 用 程序 接收 到 字符 串 形 式 的 临时 数据 ， 但 是 我 们 想 将 这 些 字符 串 转换 为 


® 








返回 值 为 0~6， 依 次 代表 周一 到 周 日 。 一 一 译 考 注 
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datetime 对 象 ， 以 此 对 它们 执行 一 些 非 字符 串 的 操作 。 


3.15.2 ”解决 方案 
一 般 来 说 ，Python 中 的 标准 模块 datetime 是 用 来 处 理 这 种 问题 的 简单 方案 。 示 例如 下 : 


>>> from datetime import datetime 
>>> text = '2012-09-20' 
>>> y = datetime.strptime(text, 'sY-%m-%d') 





>>> z = datetime.now() 

>>> diff = z - y 

>>> diff 

datetime.timedelta(3, 77824, 177393) 
>>> 


3.15.3 ”讨论 

datetime strptime() 方 法 支持 许多 格式 化 代码 ， 比 如 %Y 代表 以 4 位 数字 表示 的 年 份 ， 而 
Jom 代表 以 2 位 数字 表示 的 月 份 。 同 样 值得 一 提 的 是 , 这 些 格式 化 占 位 符 也 可 以 反 过 来 
用 在 将 datetime 对 象 转换 为 字符 串 上 .如 果 需 要 以 字符 捉 形 式 来 表示 datetime 对 象 并 且 
想 让 输出 格式 变 得 美观 时 ， 这 就 能 派 上 用 场 了 。 

比如 ， 假 设 有 一 些 代码 生成 了 datetime 对 象 ， 但 是 需要 将 它们 格式 化 为 美观 、 方 便 人 
们 阅读 的 日 期 形式 ， 以 便 将 其 放 在 自动 生成 的 信件 或 报告 的 开头 处 : 


datetime.datetime (2012, 9, 23, 21, 37, 4, 177393) 
>>> nice_z = datetime.strftime(z, '%A %B %d, %Y') 




















>>> nice_z 
'Sunday September 23, 2012' 
>>> 




















这 里 值得 一 提 的 是 strptime0 的 性 能 通常 比 我 们 想象 的 还 要 糟糕 许多 ， 这 是 因为 该 函数 
是 用 纯 Python 代码 实现 的 ， 而 且 需 要 处 理 各 种 各 样 的 系统 区 域 设 定 。 如 果 要 在 代码 中 
解析 大 量 的 日 期 ， 而 且 事先 知道 日 期 的 准确 格式 ， 那 么 自行 实现 一 个 解决 方案 可 能 会 
获得 巨大 的 性 能 提升 。 例 如 ， 如 果 知 道 日 期 是 以 “YYYY-MM-DD” 的 形式 表示 的 ， 可 
以 像 这 样 自 己 编写 一 个 函数 : 


from datetime import datetime 























def parse_ymd(s): 
year_s, mon_s, day_s = s.split('-') 
return datetime (int (year_s), int(mon_s), int (day_s) ) 


我 们 对 此 进行 了 测试 ,上面 这 个 函数 比 datetime.strptime( ht I 7 倍 多 。 如 果 需 要 处 理 大 
量 涉及 日 期 的 数据 时 ， 这 很 可 能 就 是 需要 考虑 的 问题 了 。 
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3.16 处理 涉及 到 时 区 的 日 期 问题 


3.16.1 问题 

我 们 有 一 个 电话 会 议定 在 芝加哥 时 间 2012 年 12 月 21 HEF 9:30 举行 。 那 么 在 印度 
班加罗尔 的 朋友 应 该 在 当地 时 间 几 点 出 现 才 能 赶 上 会 议 ? 

3.16.2 ”解决 方案 


对 于 几乎 任何 涉及 时 区 的 问题 ， 都 应 该 使 用 pytz 模块 来 解决 。 这 个 Python 包 提 供 了 奥 
尔 森 时 区 数据 库 ， 这 也 是 许多 语言 和 操作 系统 所 使 用 的 时 区 信息 标准 。 


pyzt 模块 主要 用 来 本 地 化 由 datetime 库 创 建 的 日 期 。 例 如 , 下 面 这 段 代 码 告诉 我 们 如 何 
以 芝加哥 时 间 来 表示 日 期 : 


>>> from datetime import datetime 















































>>> from pytz import timezone 

>>> d = datetime(2012, 12, 21, 9, 30, 0) 
>>> print (d) 

2012-12-21 09:30:00 

>>> 


>>> # Localize the date for Chicago 
>>> central = timezone('US/Central') 
>>> loc_d = central.localize(d) 

>>> print (loc_d) 

2012-12-21 09:30:00-06:00 

>>> 














x 





一 旦 日 期 经 过 了 本 地 化 处 理 ， 它 就 可 以 转换 为 其 他 的 时 区 。 要 知道 同一 时 间 在 班 加 罗 
尔 是 几 点 ， 可 以 这 样 做 : 


>>> # Convert to Bangalore time 








>>> bang_d = loc_d.astimezone (timezone ('Asia/Kolkata')) 
>>> print (bang_d) 

2012-12-21 21:00:00+05:30 

>>> 


如 果 打 算 对 本 地 化 的 日 期 做 算术 计算 ， 需 要 特别 注意 夏令 时 转换 和 其 他 方面 的 细节 。 
比如 ,2013 年 美国 的 标准 夏令 时 于 本 地 时 间 3 月 13 日 凌晨 2 点 开始 (此 时 时 间 要 往 前 
拨 一 小 时 )。 如 果 直 接 进行 算术 计算 就 会 得 到 错误 的 结果 。 例 如 : 

>>> d = datetime(2013, 3, 10, 1, 45) 

>>> loc_d = central.localize(d) 
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>>> print (loc_d) 
2013-03-10 01:45:00-06:00 


>>> later = loc_d + timedelta (minutes=30) 
>>> print (later) 

2013-03-10 02:15:00-06:00 # WRONG! WRONG! 
>> 





结果 是 错误 的 ， 因 为 上 面 的 代码 没有 把 本 地 时 间 中 跳 过 的 1 小 时 给 算 上 。 要 解决 这 个 
问题 ， 可 以 使 用 timezone 对 象 的 normalize() 方 法 。 示 例如 下 : 

>>> from datetime import timedelta 

>>> later = central.normalize(loc_d + timedelta (minutes=30) ) 

>>> print (later) 


2013-03-10 03:15:00-05:00 
>>> 


3.16.3 讨论 
为 了 不 让 我 们 的 头 炸 掉 ， 通 常用 来 处 理 本 地 时 间 的 方法 是 将 所 有 的 日 期 都 转换 为 UTC 
( 世界 统一 时 间 ) 时 间 ， 然 后 在 所 有 的 内 部 存储 和 处 理 中 都 使 用 UTC 时 间 。 示 例如 下 : 
>>> print (loc_d) 
2013-03-10 01:45:00-06:00 
>>> utc_d = loc_d.astimezone (pytz.utc) 
>>> print (utc_d) 
2013-03-10 07:45:00+00:00 
一 旦 转换 为 UTC 时间， 就 不 用 担心 夏令 时 以 及 其 他 那些 麻烦 事 了 。 因 此 ， 我 们 可 以 像 
之 前 那样 对 日 期 执行 普通 的 算术 运算 。 如 果 需 要 将 日 期 以 本 地 时 间 输 出 ， 只 需 将 其 转 
换 为 合适 的 时 区 即 可 。 示 例如 下 : 
>>> later utc = utc_d + timedelta (minutes=30) 
>>> print (later utc.astimezone (central) 
2013-03-10 03:15:00-05:00 
在 同时 区 打交道 时 ,一 个 常见 的 问题 是 如 何 知道 时 区 的 名 称 ? 例 如， 在 本 节 的 示例 中 
我 们 怎么 知道 “Asia/Kolkata” 才 是 表示 印度 时 间 的 正确 时 区 呢 ?” 要 找 出 时 区 名 称 ， 可 
以 考察 一 下 pyzt.country_timezones， 这 是 一 个 字典 ， 可 以 使 用 ISO 3166 国家 代码 作为 
key 来 查询 。 示 例如 下 : 
>>> pytz.country_timezones['IN'] 
['Asia/Kolkata'] 
当 读 到 这 里 的 时 候 ， 根 据 PEP 431 的 描述 ， 为 了 增强 对 时 区 的 支持 pyzt 模块 可 能 将 不 再 
建议 使 用 。 但 是 ， 本 节 中 提 到 的 许多 建议 依然 是 适用 的 ( 即 ， 建 议 使 用 UTC 时 间 等 ), 
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迭代 器 和 生成 器 





迭代 是 Python 中 最 强 有 力 的 特性 之 一 。 从 高 层次 看 ,我们 可 以 简单 地 把 迭代 看 做 是 一 
种 处 理 序列 中 元 素 的 方式 。 但 是 这 里 还 有 着 更 多 的 可 能 ， 比 如 创建 自己 的 可 迭代 对 象 、 
在 itertools 模块 中 选择 实用 的 迭代 模式 、 构 建生 成 器 函数 等 。 本 章 的 目标 是 解决 有 关 和 迭 
代 中 的 一 些 常见 问题 。 


41 手动 访问 迭代 器 中 的 元 素 

4.1.1 问题 

我 们 需要 处 理 某 个 可 迭代 对 象 中 的 元 素 , 但 是 基于 某 种 原因 不 能 也 不 想 使 用 for 循环 。 
4.1.2 解决 方案 


要 手动 访问 可 迭代 对 象 中 的 元 素 ， 可 以 使 用 next0 函 数 ， 然 后 自己 编写 代码 来 捕获 
StopIteration 异常 。 例 如 ， 下 面 这 个 例子 采用 手工 方式 从 文件 中 读 取 文本 行 : 


with open('/etc/passwd') as f: 













































































try: 
while True: 
line = next (f) 
print (line, end='') 
except StopIteration: 
pass 


一 般 来 说 , StopIteration 异常 是 用 来 通知 我 们 迭代 结束 的 。 但 是 , 如 果 是 手动 使 用 next() 
( 就 像 例子 中 那样 )， 也 可 以 命令 它 返 回 一 个 结束 值 ， 比 如 说 None。 示 例如 下 : 


with open('/etc/passwd') as f: 
































while True: 
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line = next(f, None) 

if line is None: 
break 

print (line, end='') 


4.1.3 讨论 

大 多 数 情况 下 ， 我们 会 用 for 语句 来 访问 可 和 迭代 对 象 中 的 元 素 。 但 是 ， 侦 尔 也 会 磁 到 需 
要 对 底层 达 代 机 制 做 更 精细 控制 的 情况 。 因 此 ， 了 解 迭 代 时 实际 发 生 了 些 什么 是 很 有 
帮助 的 。 

下 面 的 交互 式 例子 对 迭代 时 发 生 的 基本 过 程 做 了 解释 说 明 : 


>>> items = [1, 2, 3] 
>>> # Get the iterator 





























>>> it = iter (items) # Invokes items.__iter__() 
>>> # Run the iterator 
>>> next (it) # Invokes it.__next__() 
1 
>>> next (it) 
2 
>>> next (it) 
3 
>>> next (it) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
StopIteration 
>>> 








ASHE Jia LAI AS DNS PEARANCE A T Eo 
请 确保 将 这 第 一 个 例子 深 深刻 在 脑海 里 。 


4.2 ”委托 迭代 


4.2.1 问题 

我 们 构建 了 一 个 自 定义 的 容器 对 象 ， 其 内 部 持 有 一 个 列表 、 元 组 或 其 他 的 可 迭代 对 象 。 
我 们 想 让 自己 的 新 容器 能 够 完成 迭代 操作 。 

4.2.3 解决 方案 


一 般 来 说 ， 我 们 所 要 做 的 就 是 定义 一 个 _iter_0 方 法 ， 将近 代 请 求 委 托 到 对 象 内 部 持 
有 的 容器 上 。 示 例如 下 : 
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class Node: 
def _ init__(self, value): 
Self._value = value 
self._children = [] 


def _repr_ (self): 
return 'Node({!r})'.format (self._value) 


def add_child(self, node): 
self._children.append (node) 








def _iter_ (self): 


return iter(self._children) 


# Example 

if _ name == '_main_': 
root = Node (0) 
child1 = Node (1) 
child2 = Node (2) 
root.add_child(child1) 
root.add_child(child2) 


for ch in root: 





print (ch) 
# Outputs Node(1), Node (2) 


在 这 个 例子 中 ，_iter_0 方 法 只 是 简单 地 将 近代 请 求 转发 给 对 象 内 部 持 有 的 _children 
属性 上 。 

4.2.3 讨论 

Python 的 和 迭代 协议 要 求 _iter_0 返 回 一 个 特殊 的 迭代 器 对 象 ， 由 该 对 象 实现 的 
_next_() 访 法 来 完成 实际 的 迁 代 。 如 果 要 做 的 只 是 迭代 另 一 个 容器 中 的 内 容 ， 我 们 不 
必 担 心底 层 细节 是 如 何 工作 的 ， 所 要 做 的 就 是 转发 迁 代 请 求 。 


示例 中 用 到 的 iter0 函 数 对 代码 做 了 一 定 程 度 的 简化 。iter(s) 通 过 调用 s._ iter_0 来 简单 
地 返回 底层 的 迭代 器 ， 这 和 leno s. len 0 的 方式 是 一 样 的 。 


4.3 ”用 生成 器 创建 新 的 迭代 模式 


4.3.1 问题 
我 们 想 实 现 一 个 自 定义 的 迭代 模式 ,使 其 区 别 于 常见 的 内 建 函 数 ( 即 range(), reversed 
OF )。 










































































116 第 4 章 


4.3.2 解决 方案 
如 果 想 实现 一 种 新 的 迭代 模式 ， 可 使 用 生成 器 函数 来 定义 。 这 里 有 一 个 生成 器 可 产生 
某 个 范围 内 的 浮 点 数 ; 


def frange(start, stop, increment): 








x = start 
while x < stop: 
yield x 


x += increment 


要 使 用 这 个 函数 ,可 以 使 用 for 循环 对 其 迭代 , 或 者 通过 其 他 可 以 访问 可 迭代 对 象 中 元 
素 的 函数 ( 例如 sum0 、listO 等 ) 来 使 用 。 示 例如 下 : 


>>> for n in frange(0, 4, 0.5): 
print (n) 


5 
0 
5 
.0 
5 
0 


BS OS “Bh RS SR eas 


“5 
>>> list (frange(0, 1, 0.125)) 

[0, 0.125, 0.25, 0.375, 0.5, 0.625, 0.75, 0.875] 
>>> 


4.3.3 ”讨论 

函数 中 只 要 出 现 了 yield 语句 就 会 将 其 转变 成 一 个 生成 器 。 与 普通 函数 不 同 ， 生 成 器 只 
会 在 响应 迭代 操作 时 才 运 行 。 这 里 有 一 个 实验 性 的 例子 ， 我 们 可 以 试 坛 看 ， 以 了 解 这 
样 的 函数 的 底层 机 制 究竟 是 如 何 运转 的 ; 


>>> def countdown (n): 














print ('Starting to count from', n) 
while n > 0: 

yield n 

n-=1 


print ('Done!') 


>>> # Create the generator, notice no output appears 
>>> c = countdown (3) 


>>> C 
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<generator object countdown at 0x1006a0af0> 


>>> # Run to first yield and emit a value 
>>> next (c) 


Starting to count from 3 


>>> # Run to the next yield 


>>> next (c) 


>>> # Run to next yield 


>>> next (c) 


>>> # Run to next yield (iteration stops) 
>>> next (c) 
Done! 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
StopIteration 
>>> 


这 里 的 核心 特性 是 生成 器 函数 只 会 在 响应 迭代 过 程 中 的 “next” 操 作 时 才 会 运行 。 一 旦 
生成 右 函 数 返 回 ， 迭代 也 就 停止 了 。 但 是 , 通常 用 来 处 理 迭 代 的 for 语句 替 我 们 处 理 了 
这 些 细节 ， 因 此 一 般 情况 下 不 必 为 此 操心 。 








4.4 实现 迭代 协议 


4.4.1 问题 

我 们 正在 构建 一 个 自 定义 的 对 象 ， 希 望 它 可 以 支持 迭代 操作 ,但 是 也 希望 能 有 一 种 简 
单 的 方式 来 实现 迭代 协议 。 

442 解决 方案 

目前 来 看 ， 要 在 对 象 上 实现 可 迭代 功能 , 最 简单 的 方式 就 是 使 用 生成 器 函数 。 在 4.2 节 


中 , 我 们 用 Node 类 来 表示 树 结 构 。 也 许 你 想 实 现 一 个 迭代 器 能 够 以 深度 优先 的 模式 遍 
历 树 的 节点 。 下 面 是 可 能 的 做 法 : 


class Node: 


























def _ init__(self, value): 
self._value = value 
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self._children = [] 


def _repr_ (self): 
return 'Node({!r})'.format (self._value) 


def add_child(self, node): 
self._children.append (node) 


def _ iter (self): 
return iter(self._children) 


def depth_first (self): 
yield self 
for c in self: 
yield from c.depth_first () 


# Example 
if _name_ == '_main_': 
root = Node (0) 
childl = Node (1) 
child2 = Node (2) 
root.add_child(child1) 
root.add_child(child2) 
childl.add_child (Node (3) ) 
( 
( 





childl.add_child (Node (4) ) 
child2.add_child (Node (5) ) 





for ch in root.depth_first(): 
print (ch) 
# Outputs Node(0), Node(1), Node(3), Node(4), Node(2), Node(5) 


在 这 份 代码 中 ，depth_first0 的 实现 非常 易于 阅读 ， 描 述 起 来 也 很 方便 。 它 首先 产生 出 
自身 ， 然 后 迭代 每 个 子 节点 ， 利 用 子 节 点 的 depth_first0 方 法 (通过 yield from 语句 ) 
产生 出 其 他 元 素 。 


44.3 ”讨论 

Python 的 迭代 协议 要 求 _iter_0 返 回 一 个 特殊 的 迭代 器 对 象 ， 该 对 象 必 须 实现 
__next 0) 方法， 并 使 用 StopIteration 异常 来 通知 迭代 的 完成 。 但 是 ， 实 现 这 样 的 对 象 
常常 会 比较 繁琐 。 例如， 下 面 的 代码 展示 了 depth_first0 的 男 一 种 实现 ， 这 里 使 用 了 一 
个 相关 联 的 迭代 器 类 。 


class Node: 


























def _ init__(self, value): 
self._value = value 
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self._children = [] 


def _repr__(self): 


return 'Node({!r})'. format (self._value) 


def add_child(self, other_node): 
self._children. append (other_node) 





def _iter_ (self): 
return iter(self._children) 





def depth_first (self): 
return DepthFirstIterator (self) 


class DepthFirstIterator (object) : 


mr 


Depth-first traversal 

rrr 

def _ init (self, start_node): 
self._node = start_node 
self._children_iter = None 
self._child_iter = None 


def _iter_ (self): 
return self 


def _next_ (self): 
# Return myself if just started; create an iterator for children 
if self._children_iter is None: 
self._children_iter = iter(self._node) 
return self._node 


# If processing a child, return its next item 
elif self._child_iter: 
try: 
nextchild = next (self._child_iter) 
return nextchild 
except StopIteration: 
self._child_iter = None 
return next (self) 


# Advance to the next child and start its iteration 

else: 
self._child_iter = next (self._children_iter) .depth_first () 
return next (self) 
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DepthFirstIterator 类 的 工作 方式 和 生成 器 版 本 的 实现 相同 但 是 却 复 杂 了 许多 ， 因 为 迭代 
器 必须 维护 迭代 过 程 中 许多 复杂 的 状态 ， 要 记 住 当前 迭代 过 程 进行 到 哪里 了 。 坦 白 
说 ， 没 人 喜欢 编写 这 样 令 人 费解 的 代码 。 把 迭代 器 以 生成 器 的 形式 来 定义 就 丝 大 欢 


ST. 


45 Remar 


4.5.1 问题 
我 们 想 要 反 向 先 代 序列 中 的 元 素 。 


4.5.2 ”解决 方案 
可 以 使 用 内 建 的 reversed0 函 数 实 现 反 向 迭代 。 示 例如 下 : 


>>> a = [1, 2, 3, 4] 
>>> for x in reversed(a): 


print (x) 


e N WwW Bee 


反 向 迭代 只 有 在 待 处 理 的 对 象 拥有 可 确定 的 大 小 ， 或 者 对 象 实现 了 _reversed_(0) 特 殊 
方法 时 ， 才 能 奏效 。 如 果 这 两 个 条 件 都 无 法 满足 ， 则 必须 首先 将 这 个 对 象 转 换 为 列表 。 
示例 如 下 : 


# Print a file backwards 

f = open('somefile') 

for line in reversed(list(f)): 
print (line, end='') 

















请 注意 ， 像 上 述 代码 中 那样 将 可 迭代 对 象 转换 为 列表 可 能 会 消耗 大 量 的 内 存 ， 尤 其 是 
当 可 迭代 对 象 较 大 时 更 是 如 此 。 


4.5.3 讨论 
许多 程序 员 都 没有 意识 到 如 果 他 们 实现 了 __reversed_0 方 法， 那么 就 可 以 在 自 定义 的 
类 上 实现 反 向 迭代 。 示 例如 下 : 

class Countdown: 


def _ init__(self, start): 
self.start = start 
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# Forward iterator 

def _iter_ (self): 

n = self.start 
while n > 0: 
yield n 


n-=1 


# Reverse iterator 
def __reversed__(self): 
n=l 
while n <= self.start: 
yield n 
n+=1 


定义 一 个 反 向 迭代 器 可 使 代码 变 得 更 加 高 效 ， 因 为 这 样 就 无 需 先 把 数据 放 到 列表 中 ， 
然后 再 反 向 去 迭代 列表 了 。 


4.6 ”定义 市 有 额外 状态 的 生成 器 函数 


4.6.1 se 

我 们 想 定 义 一 个 生成 器 函数 ， 但 是 它 还 涉及 一 些 额外 的 状态 ， 我 们 和 希望 能 以 某 种 形式 
将 这 

4.6.2 ee 


如 果 想 让 生成 器 将 状态 暴露 给 用 户 ， 别 忘 了 可 以 轻易 地 将 其 实现 为 一 个 类 ， 然 后 把 生 
成 需 函 数 的 代码 放 到 er 0 方法 中 即 可 。 示例 如 下 : 


from collections import deque 























class linehistory: 

def _ init__(self, lines, histlen=3): 
self.lines = lines 
self.history = deque (maxlen=histlen) 

def _ iter (self): 
for lineno, line in enumerate(self.lines,1): 
self. history.append((lineno, line) ) 
yield line 


def clear(self): 
self. history.clear () 


要 使 用 这 个 类 ， 可 以 将 其 看 做 是 一 个 普通 的 生成 器 函数 。 但 是 ， 由 于 它 会 创建 一 个 类 
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实例 ， 所 以 可 以 访问 内 部 属性 ， 比 如 history 属性 或 者 clear0 方 法 。 示 例如 下 : 


with open('somefile.txt') as f: 
lines = linehistory (f) 
for line in lines: 
if 'python' in line: 
for lineno, hline in lines.history: 
print ('{}:{}'.format(lineno, hline) 


46.3 讨论 
有 了 生成 器 之 后 很 容易 掉 和 人 一 个 陷阱 ， 即 ， 试 着 只 月 





, end='') 





日 函 数 来 解决 所 有 的 问题 。 如 果 生 





成 器 函数 需要 以 不 寻常 的 方式 同 程序 中 其 他 部 分 交互 的 话 〈 比如 暴露 属性 ， 人 允许 通过 
方法 调用 来 获得 控制 等 )， 那 就 会 导致 出 现 相当 复杂 的 代码 。 如 果 遇 到 了 这 种 情况 ， 就 
像 示例 中 做 的 那样 ， 用 类 来 定义 就 好 了 。 将 生成 器 函数 定义 在 _iter__() 方 法 中 并 没有 





























为 属性 和 方法 来 提供 给 用 户 交 互 。 
上 面 所 示 的 方法 有 一 个 潜在 的 微妙 之 处 , 那 就 是 如 果 
驱动 迭代 过 程 的 话 ， 可 能 需要 额外 调用 一 次 iter()。 上 


>>> f = open('somefile.txt') 





>>> lines = linehistory(f) 
>>> next (lines) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'linehistory' object is not an iterator 


>>> # Call iter() first, then start iterating 
>>> it = iter(lines) 

>>> next (it) 

"hello world\n' 

>>> next (it) 

"this is a test\n' 

>>> 


4.7 XARA AF RE 


4.7.1 问题 








对 算法 做 任何 改变 。 由 于 状态 只 是 类 的 一 部 分 ， 这 一 事实 使 得 我 们 可 以 很 容易 将 其 作 





打算 用 除了 for 循环 之 外 的 技术 来 
Crit: 

















我 们 想 对 由 迭代 器 产生 的 数据 做 切片 处 理 ， 但 是 普通 的 切片 操作 符 在 这 里 不 管用 。 


4.7.2 ”解决 方案 








要 对 迭代 器 和 生成 器 做 切片 操作 ，itertools.islice0 函 数 是 完美 的 选择 。 示 例如 下 : 
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>>> def count (n): 
while True: 
yield n 
nt=1 


>>> c = count (0) 
>>> c[10:20] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'generator' object is not subscriptable 


>>> # Now using islice() 

>>> import itertools 

>>> for x in itertools.islice(c, 10, 20): 
print (x) 





VO OI DOF WNHHE Oe >œ 


Vv 


> 


4.7.3 讨论 

迭代 器 和 生成 器 是 没 法 执行 普通 的 切片 操作 的 , 这 是 因为 不 知道 它们 的 长 度 是 多 少 ( 而 
且 它 们 也 没有 实现 索引 )。islice0 产 生 的 结果 是 一 个 迭代 器 ， 它 可 以 产生 出 所 需要 的 切 
片 元 素 ， 但 这 是 通过 访问 并 丢弃 所 有 起 始 索 引 之 前 的 元 素来 实现 的 。 之 后 的 元 素 会 
islice 对 象 产生 出 来 ， 直 到 到 达 结束 索引 为 止 。 

需要 重点 强调 的 是 slice 消耗 掉 所 提供 的 迭代 器 中 的 数据 。 由 于 迭代 器 中 的 元 素 只 
能 访问 一 次 ， 没 法 倒 回 去 ， 因 此 这 里 就 需要 引起 我 们 的 注意 了 。 如 果 之 后 还 需要 倒 回 
ee Se E 


4.8” 跳 过 可 迭代 对 象 中 的 前 一 部 分 元 素 


4.8.1 问题 


我 们 想 对 某 个 可 迭代 对 象 做 迭代 处 理 ， 但 是 对 于 前 面 几 个 元 素 并 不 感 兴趣 ， 只 想 将 它 
们 丢弃 掉 。 
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4.8.2 ”解决 方案 


itertools 模块 中 有 一 些 函 数 可 用 来 解决 这 个 问题 。 第 一 个 是 itertools. dropwhile() PŽ 





要 使 用 它 ， 只 要 提供 


一 个 函数 和 一 个 可 和 迭 A te ed a 





序列 中 的 前 面 几 个 元 素 


， 只 要 它们 在 所 提供 的 函数 中 返回 True BURT, 这 之 后 , 序列 中 


剩余 的 全 部 元 素 都 会 产生 出 来 。 
为 了 说 明 ， 假设 我 们 正在 读 取 一 个 文件 ， 文 件 的 开头 有 一 系列 的 注释 行 。 示 例如 下 : 


>>> with open('/etc/passwd') as f: 


for line in f: 


print (line, end='') 


tt 
# User Database 


# 


# Note that this file is consulted directly only when the system is running 


# in single-user mode. At other times, this information is provided by 


# Open Directory. 


tt 


nobody: *:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 


>>> 


如 果 想 跳 过 所 有 的 初始 注释 行 ， 这 里 有 一 种 方法 : 


>>> from itertools import dropwhile 





>>> with open('/etc/passwd') as f: 


for line in dropwhile (lambda line: line.startswith('#'), f): 


print (line, end='') 


nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 


>>> 





这 个 例子 是 根据 测试 函数 的 结果 来 跳 过 前 面 的 元 素 。 如 果 恰 好 知道 要 跳 过 多 少 个 元 素 ， 
么 可 以 使 用 itertools.islice0 。 示 例如 下 : 


>>> from itertools import islice 


>>> items = ['a', 'b', 

















” 即 ， 我 们 提供 的 那个 函数 起 一 个 第 子 的 作用 ， 满 足 条 件 的 都 会 丢弃 直到 有 元 素 不 满足 为 止 。 一 一 译 者 注 


Ney | 











H 
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>>> for x in islice(items, 3, None): 


print (x) 





在 这 个 例子 中 ,islice0 的 最 后 一 个 参数 None 3 个 元 素 之 外 的 所 有 元 素 ， 
而 不 是 只 要 前 3 个 元 素 ( 即 ， 表 示 切 片 [3:]， 而 不 是 [:3] )。 





48.3 讨论 
dropwhile() il islice() 都 是 很 方便 实用 的 函数 , 可 以 利用 它们 来 避免 写 出 如 下 所 示 的 混乱 
代码 : 


with open('/etc/passwd') as f: 
# Skip over initial comments 
while True: 
line = next(f, '') 
if not line.startswith('#'): 
break 


# Process remaining lines 

while line: 
# Replace with useful processing 
print (line, end='') 


line = next(f, None) 
只 丢弃 可 迭代 对 和 象 中 的 前 一 部 分 元 素 和 对 全 部 元 素 进行 过 滤 也 是 有 所 区 别 的 。 例 如 ， 
本 节 第 一 个 示例 也 许可 以 重 写 为 如 下 代码 : 


with open('/etc/passwd') as f: 
lines = (line for line in f if not line.startswith('#')) 








for line in lines: 


print (line, end='') 
这 人 么 做 显然 会 丢弃 开始 部 分 的 注释 行 , 但 这 同样 会 丢弃 整个 文件 中 出 现 的 所 有 注释 行 。 
而 本 节 开 始 给 出 的 解决 方案 只 会 丢弃 元 素 ， 直 到 有 某 个 元 素 不 满足 测试 函数 为 止 。 那 
之 后 的 所 有 剩余 元 素 全 部 会 不 经 过 筛选 而 直接 返回 。 
最 后 应 该 要 强调 的 是 ， 本 节 所 展示 的 技术 可 适用 于 所 有 的 可 友 代 对 象 ， 包 括 那些 事先 
无 法 确定 大 小 的 对 象 也 是 如 此 。 这 包括 生成 器 、 文 件 以 及 类 似 的 对 象 。 
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4.9 RAAT REHASH 


4.9.1 问题 
我 们 想 对 一 系列 元 素 所 有 可 能 的 组 合 或 排列 进行 迭代 。 


4.9.2 解决 方案 

为 了 解决 这 个 问题 itertools 模块 中 提供 了 3 个 函数 。 第 一 个 是 itertools.permutations() 
一 一 它 接受 一 个 元 素 集合 ， 将 其 中 所 有 的 元 素 重 排列 为 所 有 可 能 的 情况 ， 并 以 元 组 序 
列 的 形式 返回 ( 即 ， 将 元 素 之 间 的 顺序 打 乱 成 所 有 可 能 的 情况 )。 示 例如 下 : 


>>> items = ['a', 'b', 'c'] 











>>> from itertools import permutations 
>>> for p in permutations (items): 


print (p) 
(“atr by heh) 
ary 'c', 'b") 
(CD Nata) tgi) 
("b', 'c', 'a") 
("c', 'a', 'b") 
(enp 'b', 'a") 











如 果 想 得 到 较 短 长 度 的 所 有 全 排列 ， 可 以 提供 一 个 可 选 的 长 度 参 数 。 示 例如 下 : 


>>> for p in permutations(items, 2): 





print (p) 

('a', 'b') 
("a', 'c') 
('b', 'a') 
(Pty 1e) 
("c', 'a') 
('c', 'b') 
>>> 


使 用 itertools.combinationsO 可 产生 输入 序列 中 所 有 元 素 的 全 部 组 合 形式 。 示 例如 下 : 


>>> from itertools import combinations 





>>> for c in combinations(items, 3): 


print (c) 
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>>> for c in combinations(items, 2): 


print (c) 
(‘a', "b') 
(‘a', "er) 
('b', waT) 


>>> for c in combinations (items, 1): 


print (c) 





对 于 combinations0 来 说 ， 元 素 之 间 的 实际 顺序 是 不 予 考虑 的 。 也 就 是 说 ， 组 合 (a，'b) 
和 组 合 (b', 'a) 被 认为 是 相同 的 组 合 形式 〈 因 此 只 会 产生 出 其 中 一 种 )。 

当 产 生 组 合 时 , 已 经 选择 过 的 元 素 将 从 可 能 的 候选 元 素 中 移 除 掉 ( 即 ， 如 果 'a 已 经 选 过 
T, 那么 就 将 它 从 考虑 范围 中 去 掉 ), itertools.combinations_with_replacement() PA RUE 
了 这 一 限制 ， 允 许 相 同 的 元 素 得 到 多 次 选择 。 示 例如 下 : 


>>> for c in combinations_with_replacement (items, 3): 

















print (c) 


49.3 tit 

本 节 只 演示 了 一 部 分 itertools 模块 的 强大 功能 。 尽 管 我 们 肯定 可 以 自己 编写 代码 来 产生 
排列 和 组 合 ， 但 这 么 做 大概 需 要 我 们 好 好 思考 一 番 。 当 面 对 看 起 来 很 复杂 的 迭代 问题 
时 ,应 该 总 是 先 去 查看 itertools 模块 。 如 果 问 题 比 较 常 见 , 那么 很 可 能 已 经 有 现成 的 解 
决 方案 了 。 
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410 以 索引 - 值 对 的 形式 迭代 序列 


4.10.1 问题 

我 们 想 迭 代 一 个 序列 ,但 是 又 想 记录 下 序列 中 当前 处 理 到 的 元 素 索 引 。 
4.10.2 解决 方案 

内 建 的 enumerate0 函 数 可 以 非常 漂亮 地 解决 这 个 问题 ; 


>>> my_list = ['a', 'b', 'c'] 








>>> for idx, val in enumerate(my_list): 
print (idx, val) 

Oa 

1b 

2°6 





如 果 要 打印 出 规范 的 行 号 (这 种 情况 下 一 般 是 从 1 开始 而 不 是 0 )， 可 以 传人 一 个 start 
参数 作为 起 始 索引 : 


>>> mý list = ['a', 'b', 'c'] 

>>> for idx, val in enumerate(my_list, 1): 
print (idx, val) 

la 

2b 

Fe 


这 种 情况 特别 适合 于 跟踪 记录 文件 中 的 行 号 ， 当 想 在 错误 信息 中 加 上 行 号 时 就 特别 有 
用 了 。 示 例如 下 : 


def parse_data(filename) : 
with open (filename, 'rt') as f: 
for lineno, line in enumerate(f, 1): 
fields = line.split () 
try: 
count = int (fields[1] 


except ValueError as e: 
print ('Line {}: Parse error: {}'.format(lineno, e)) 


enumerate() 可 以 方便 地 用 来 跟踪 记录 特定 的 值 出 现在 列表 中 的 偏 移 位 置 。 比 如 ,如 果 想 
将 文件 中 的 单词 和 它们 所 出 现 的 行 之 间 建 立 映射 关系 ， 则 可 以 通过 使 用 enumerate() 来 
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将 每 个 单词 映射 到 文件 行 相应 的 偏 移 位 置 来 实现 。 示 例如 下 : 


word_summary = defaultdict (list) 


with open('myfile.txt', 'r') as f: 


lines = f.readlines () 


for idx, line in enumerate(lines): 
# Create a list of words in current line 
words = [w.strip().lower() for w in line.split()] 
for word in words: 


word_summary [word] . append (idx) 

















处 理 完 文件 之 后 , 如 果 打 印 word_summary , 将 得 到 一 个 字典 ( 准确 地 说 是 defaultdict ), 
而 且 每 个 单词 都 是 字典 的 键 。 每 个 单词 键 所 对 应 的 值 就 是 由 行 号 组 成 的 列表 ， 表 示 这 
个 单词 曾 出 现 过 的 所 有 行 。 如 果 单 词 在 一 行 之 中 出 现 过 2 次 , 那么 这 个 行 号 就 会 记录 2 
次 ， 这 使 得 我 们 可 以 识别 出 文本 中 各 种 简单 的 韵律 


4.10.3 讨论 


对 于 那些 可 能 想 自 己 保存 一 个 计数 器 的 场景 , enumerate() 函 数 是 个 不 错 的 替代 选择 ,而 
且 会 更 加 便捷 。 我 们 可 以 像 这 样 编写 代码 : 


lineno = 





























o 





for line in f: 


# Process line 
lineno += 1 


但 是 ， 通 常 更 加 优雅 的 做 法 是 使 用 enumerate0: 


for lineno, line in enumerate (f): 




















# Process line 
































enumerate() 的 返回 值 是 一 个 enumerate 对 象 实例 , 它 是 一 个 迭代 器 , 可 返回 连续 的 元 组 。 
元 组 由 一 个 索引 值 和 对 传人 的 序列 调用 nextO0 而 得 到 的 值 组 成 。 

尽管 只 是 个 很 小 的 问题 ,这 里 还 是 值得 提 一 下 。 有 时 候 , 当 在 元 组 序列 上 应 用 enumerate) 
时 ， 如 果 元 组 本 身 也 被 分 解 展开 的 话 就 会 出 错 。 要 正确 处 理 元 组 序列 ， 必 须 像 这 样 编 
写 代码 : 


data = [ (1, 2), (3, 4), (5, 6), (7, 8) ] 



































# Correct! 
for n, (x, y) in enumerate(data): 
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# Error! 


for n, x, y in enumerate (data): 


4.11 同时 迭代 多 个 序列 


4.11.1 问题 
我 们 想 要 迭代 的 元 素 包 含 在 多 个 序列 中 ， 我 们 想 同 时 对 它们 进行 迭代 。 


4.11.2 解决 方案 

可 以 使 用 zip0 函 数 来 同时 迭代 多 个 序列 。 示 例如 下 : 
>>> xpts = [1, 5, 4, 2, 10, 7] 
>>> ypts = [101, 78, 37, 15, 62, 99] 


>>> for x, y in zip(xpts, ypts): 
print (x,y) 


zip(a, b) AY AFR AGE OEM — Tiki, Bae Carel eA CZ (x, y)， 这 里 的 x 取 自 
序列 a， 而 y 取 自序 列 b。 当 其 中 某 个 输入 序列 中 没有 元 素 可 以 继续 迭代 时 ， 整 个 迭代 
过 程 结束 。 因 此 ， 整 个 迭代 的 长 度 和 其 中 最 短 的 输入 序列 长 度 相同 。 示 例如 下 : 


>>> a = [1, 2, 3] 





>>> b = ['w', ip cue i ar I 
>>> for i in zip(a,b): 


print (i) 





如 果 这 种 行为 不 是 所 需要 的 ， 可 以 使 用 itertools.zip_longest0 来 奉 代 。 示 例如 下 : 
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>>> from itertools import zip_longest 
>>> for i in zip_longest (a,b): 


print (i) 
(1, 'w') 
(2, 'x!') 
(3, 'y') 
(None, 'z') 


>>> for i in zip_longest(a, b, fillvalue=0): 


print (i) 
(1, 'w') 
(2, 'x!') 
(3, 'y') 
(0, 'z') 
>>> 


4.11.3 讨论 
zip0 通 常用 在 需要 将 不 同 的 数据 配对 在 一 起 时 。 例 如 ,假设 有 一 列 标题 和 一 列 对 应 的 值 
示例 如 下 : 


headers = ['name', 'shares', 'price'] 
values = ['ACME', 100, 490.1] 


使 用 zip0， 可 以 将 这 些 值 配对 在 一 起 来 构建 一 个 字典 ， 就 像 这 样 : 


s = dict (zip (headers, values) ) 


此 外 ， 如 果 试 着 产生 输出 的 话 ， 可 以 编写 这 样 的 代码 : 


for name, val in zip(headers, values): 























print (name, '=', val) 


尽管 不 常见 ,但 是 zip0 可 以 接受 多 于 2 个 序列 作为 输入 。 在 这 种 情况 下 ， 得 到 的 结果 


> 








中 元 组 里 的 元 素数 量 和 输入 序列 的 数量 相同 。 示 例如 下 : 


>>> a = [1, 2, 3] 
>>> b = [10, 11, 12] 
>> c= [x 'y','z'] 


>>> for i in zip(a, b, c): 


print (i) 
(1, 10, 'x') 
(2, 11, 'y') 
(3, 12, % 2") 
>>> 


a 
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最 后 需要 重点 强调 的 是 , zipO0 创 建 出 的 结果 只 是 一 个 迭代 器 。 如 果 需 要 将 配对 的 数据 保 
存 为 列表 ， 那 么 请 使 用 list0 函 数 。 示 例如 下 : 


>>> zip(a, b) 
<zip object at 0x1007001b8> 
>>> list (zip(a, b)) 

[(1, 10), (2, 11), (3, 12)] 
>>> 











412 ”在 不 同 的 容器 中 进行 迭代 


4.12.1 问题 
我 们 需要 对 许多 对 象 执 行 相 同 的 操作 ， 但 是 这 些 对 象 包含 在 不 同 的 容器 内 ， 而 我 们 和 希 
望 可 以 避免 写 出 读 套 的 循环 处 理 ， 保 持 代码 的 可 读 性 。 


412.2 解决 方案 


itertools.chain( 方 法 可 以 用 来 简化 这 个 任务 。 它 接受 一 系列 可 迭代 对 象 作 为 输入 并 返回 
一 个 迭代 器 ， 这 个 帮 代 器 能 够 有 效 地 掩盖 一 个 事实 一 一 你 实际 上 是 在 对 多 个 容器 进行 
迭代 。 为 了 说 明 清楚 ， 请 考虑 下 面 这 个 例子 : 

>>> from itertools import chain 


>>> a = [1, 2, 3, 4] 
>> b= [ tx", og tar] 

















>>> for x in chain(a, b): 


print (x) 


NK K SB WN FE 


>>> 


























在 程序 中 , chain() 常 见 的 用 途 是 想 一 次 性 对 所 有 的 元 素 执行 某 项 特定 的 操作 , 但 是 这 
元 素 分 散在 不 同 的 集合 中 。 比 如 : 


# Various working sets of items 


I 








active_items = set () 


inactive_items = set () 


# Iterate over all items 
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for item in chain(active_items, inactive_items): 


# Process item 


采用 chain0 的 解决 方案 比 下 面 这 种 写 两 个 单独 的 循环 要 优雅 得 多 : 


for item in active_items: 


# Process item 


for item in inactive_items: 


# Process item 


4.12.3 讨论 

itertools.chain() HT #e52— TMB PA ARR RENAR, RIESE TIE, TK 
和 迭代 器 可 连续 访问 并 返回 你 提供 的 每 个 可 迭代 对 象 中 的 元 素 。 尽 管区 别 很 小 ， 但 是 
chain0 比 首先 将 各 个 序列 合并 在 一 起 然后 再 迭代 要 更 加 高 效 。 示 例如 下 : 


# Inefficent 
for x ina + b: 





























# Better 
for x in chain(a, b): 





第 一 种 情况 中 ，a + b 操作 产生 了 一 个 全 新 的 序列 ， 此 外 还 要 求 a 和 b 是 同一 种 类 型 。 
chain0 并 不 会 做 这 样 的 操作 , 因此 如 果 输 入 序列 很 大 的 话 , 在 内 存 的 使 用 上 chain0 就 会 
高 效 得 多 ， 而 且 当 可 迭代 对 象 之 间 不 是 同一 种 类 型 时 也 可 以 轻松 适用 。 























4.13 创建 处 理 数据 的 管道 


4.13.1 问题 

我 们 想 以 流水 线 式 的 形式 对 数据 进行 迭代 处 理 (类 似 UNIX 下 的 管道 ) 比方 说 我 们 有 
海量 的 数据 需要 处 理 ， 但 是 没 法 完全 将 数据 加 载 到 内 存 中 去 。 

4.13.2 解决 方案 


生成 吉 函 数 是 一 种 实现 管道 机 制 的 好 方法 。 为 了 说 明 ， 假 设 我 们 有 一 个 超大 的 目录 ， 
其 中 都 是 想 要 处 理 的 日 志文 件 : 
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foo/ 
access-log-012007.gz 
access-log-022 
access-log-032 


access-log-012008 
bar/ 
access-log-092007.bz2 























access-log-022008 


假设 每 个 文件 都 包含 如 下 形式 的 数据 行 : 


124.115.6.12 - - [10/Jul/2012:00:18:50 -0500] "GET /robots.txt ..." 200 71 
210.212.209.67 - - [10/dul1/2012:00:18:51 -0500] "GET /ply/ ..." 200 11875 
210.212.209.67 - - [10/dul/2012:00:18:51 -0500] "GET /favicon.ico ..." 404 369 
611.135.216.105 - - [10/Jul/2012:00:20:04 -0500] "GET /blog/atom.xml ..." 304 - 








要 处 理 这 些 文件 ， 可 以 定义 一 系列 小 型 的 生成 器 函数 ， 每 个 函数 执行 特定 的 独立 任务 。 
示例 如 下 : 


import os 
import fnmatch 
import gzip 
import bz2 


import re 


def gen_find(filepat, top): 


oer 


Find all filenames in a directory tree that match a shell wildcard pattern 
TET 
for path, dirlist, filelist in os.walk (top): 
for name in fnmatch.filter (filelist, filepat): 
yield os.path.join (path, name) 


def gen_opener (filenames) : 

pee 
Open a sequence of filenames one at a time producing a file object. 
The file is closed immediately when proceeding to the next iteration. 
peer 
for filename in filenames: 

if filename.endswith('.gz'): 

f = gzip.open (filename, 'rt') 
elif filename.endswith('.bz2'): 


f = bz2.open(filename, 'rt') 
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else: 

f = open(filename, 'rt') 
yield f 
f£.close() 


def gen_concatenate (iterators): 


meer 


Chain a sequence of iterators together into a single sequence. 
pee 
for it in iterators: 


yield from it 


def gen_grep(pattern, lines): 


meer 


Look for a regex pattern in a sequence of lines 
tri 
pat = re.compile (pattern) 
for line in lines: 
if pat.search (line): 
yield line 


HEFE FY DA fen E KAE R REEERE R a ARAE EE a, FRENA E 
含 关键 字 python 的 日 志 行 ， 只 需要 这 人 么 做 : 
lognames = gen_find('access-log*', 'www') 


files = gen_opener (lognames) 
lines = gen_concatenate (files) 





pylines = gen_grep('(?i)python', lines) 
for line in pylines: 
print (line) 








T 


如 果 稍 后 想 对 管道 进行 扩展 ， 甚 至 可 以 在 生成 锅 表 达 式 中 填充 数据 。 比 如 ， 下 面 这 个 
版 本 可 以 找 出 传送 的 字 节 数 并 统计 出 总 字 节 量 : 


lognames = gen_find('access-log*', 'www') 











files = gen_opener (lognames) 

lines = gen_concatenate (files) 

pylines = gen_grep('(?i)python', lines) 

bytecolumn = (line.rsplit(None,1)[1] for line in pylines) 
bytes = (int(x) for x in bytecolumn if x != '-') 

print ('Total', sum(bytes) ) 


4.13.3 讨论 


将 数据 以 管道 的 形式 进行 处 理 可 以 很 好 地 适用 于 其 他 广泛 的 问题 ， 包 括 解析 、 读 取 实 
时 的 数据 源 、 定 期 轮 询 等 。 
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要 理解 这 些 代 码 ， 很 重要 的 一 点 是 领会 yield 话 句 的 含义 。 在 这 里 yield 语句 表现 为 数 
据 的 生产 者 ， 而 for 循环 表现 为 数据 的 消费 者 。 当 生成 侨 被 串联 起 来 时 ， 在 迭代 中 每 个 
yield 语句 都 为 管道 中 下 个 阶段 的 处 理 过 程 产生 出 数据 。 在 最 后 那个 例子 中 ，sumO 函 数 
实际 上 在 驱动 这 整个 程序 ， 每 一 次 都 从 生成 器 管道 中 取出 一 份 数据 。 

这 种 方法 的 一 个 优点 在 于 每 个 生成 器 函数 都 比较 短小 而 且 功能 独立 。 正 因为 如 此 ， 编 
写 和 维护 都 很 容易 。 在 许多 情况 下 ， 由 于 它们 是 如 此 的 通用 ， 因 此 可 以 在 其 他 上 下 文 
中 得 到 重用 。 最 终 ， 将 这 些 组 件 粘 合 在 一 起 的 代码 读 起 来 就 像 一 份 食谱 一 样 简单 ， 
此 也 更 容易 理解 。 

这 种 方法 在 内 存 使 用 的 高 效 性 上 也 同样 值得 硅 商 。 如 果 目 录 中 有 着 海量 的 文件 要 处 理 ， 
上 述 展 示 的 代码 仍然 可 以 正常 工作 。 实 际 上 ， 由 于 处 理 过 程 的 迭代 特性 ， 这 里 只 会 用 
到 非常 少 的 内 存 。 
关于 gen_concatenate() 函 数 还 有 一 些 非 常 微妙 的 地 方 需要 说 明 。 这 个 函数 的 目的 是 将 输 
入 序列 连接 为 一 个 长 序列 行 。itertools.chain0 函 数 可 以 实现 类 似 的 功能 ， 但 是 这 需要 将 
所 有 的 可 迭代 对 象 指定 为 它 的 参数 才 行 。 在 这 个 特定 的 例子 中 ， 这 么 做 将 涉及 一 行 这 
样 的 代码 : lines = itertools.chain(*files)， 这 会 导致 gen_opener0) 生 成 天 被 完全 耗 尽 。 由 
于 这 个 生成 器 产生 的 是 打开 的 文件 序列 ， 它 们 在 下 一 个 迭代 步骤 中 会 被 立刻 关闭 ， 
此 这 里 不 能 用 chain0。 我 们 展示 的 解决 方案 避免 了 这 个 问题 。 

此 外 ，gen_concatenateO 国 数 中 也 出 现 了 实现 委托 给 一 个 子 生成 器 的 yield from 语句 。 
语句 yield from it 简单 地 使 gen_concatenate0 因 数 发 射出 所 有 由 生成 器 让 产生 的 值 。 这 
一 点 将 在 4.14 节 中 做 进一步 的 描述 。 
最 后 但 同样 重要 的 是 ， 应 该 指出 管道 方法 并 不 会 总 是 适用 于 每 一 个 数据 处 理 问 题 。 有 
时 候 我 们 需要 马上 处 理 所 有 的 数据 。 但 是 ， 就 算是 这 种 情况 ， 使 用 生成 器 管道 可 以 在 
逻辑 上 将 问题 分 解 成 一 种 工作 流程 。 

David Beazley 在 他 的 “针对 系统 程序 员 之 生成 器 技巧 ”教程 报告 Chttp://www.dabeaz.com/ 
generators ) 中 已 经 对 这 些 技术 做 了 广泛 的 探讨 。 可 以 参阅 他 的 教程 以 获得 更 多 的 示例 。 


4.14 扁平 化 处 理 藤 套 型 的 序列 


4.14.1 问题 
我 们 有 一 个 幅 套 型 的 序列 ， 想 将 它 扁平 化 处 理 为 一 列 单独 的 值 。 
4.14.2 解决 方案 


这 个 问题 可 以 很 容易 地 通过 写 一 个 带 有 yield from 语句 的 递归 和牛 成 器 函数 来 解决 。 示例 
如 下 : 
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from collections import Iterable 


def flatten(items, ignore_types=(str, bytes)): 
for x in items: 
if isinstance(x, Iterable) and not isinstance(x, ignore_types): 
yield from flatten (x) 
else: 
yield x 


items = [1, 2, [3, 4, [5, 6], 7], 8] 


# Produces 1234567 8 
for x in flatten(items): 





print (x) 


在 上 述 代码 中 ，isinstance(x, Iterable) 简 单 地 检查 是 否 有 某 个 元 素 是 可 迭代 的 。 如 果 确 实 
有 , 那么 就 用 yield from 将 这 个 可 迭代 对 象 作为 一 种 子 例 程 进行 递归 , 将 它 所 有 的 值 都 
产生 出 来 。 最 后 得 到 的 结果 就 是 一 个 没有 贬 套 的 单 值 序列 。 

代码 中 额外 的 参数 ignore_types 和 对 not isinstance(x, ignore_types) 的 检查 是 为 了 避免 将 字 
符 串 和 字 节 串 解 释 为 可 迭代 对 象 ， 进 而 将 它们 展开 为 单独 的 一 个 个 字符 。 这 使 得 内 套 
型 的 字符 串 列表 能 够 以 大 多 数 人 所 期 望 的 方式 工作 。 示 例如 下 : 


>>> items = ['Dave', 'Paula', ['Thomas', 'Lewis']] 












































>>> for x in flatten(items): 
print (x) 


4.14.3 ”讨论 
如 果 想 编写 生成 器 用 来 把 其 他 的 生成 器 当做 子 例 程 调用 ，yield from 是 个 不 错 的 快捷 方 
式 。 如 果 不 这 么 用 ， 就 需要 编写 有 额外 for 循环 的 代码 ， 比 如 这 样 : 


def flatten(items, ignore_types=(str, bytes)): 









































for x in items: 
if isinstance(x, Iterable) and not isinstance(x, ignore_types): 
for i in flatten(x): 
yield i 
else: 
yield x 
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尽管 只 是 个 小 小 的 改变 , 但 是 使 用 yield from 语句 感觉 更 好 , 也 使 得 代码 变 得 更 加 清晰 。 


前 面 提 到 , 对 字符 串 和 字 节 串 的 额外 检查 是 为 了 避免 将 这 些 类 型 的 对 象 展开 为 单独 的 
字符 。 如 果 还 有 其 他 类 型 是 不 想 要 展开 的 ， 可 以 为 ignore_types 参数 提供 不 同 的 值 来 
确定 。 

最 后 应 该 要 提 到 的 是 ，yield from 在 涉及 协 程 (coroutine ) 和 基于 生成 器 的 并 发 型 高 级 
程序 中 有 着 更 加 重要 的 作用 。 请 参见 12.12 节 中 的 另 一 个 示例 。 


415 ”合并 多 个 有 序 序列 ， 再 对 整个 有 序 序列 进行 
迭代 

4.15.1 问题 

我 们 有 一 组 有 序 序列 ， 想 对 它们 合并 在 一 起 之 后 的 有 序 序列 进行 迭代 。 


415.2 解决 方案 
对 于 这 个 问题 ，heapq.merge0 函 数 正 是 我 们 所 需要 的 。 示 例如 下 : 


>>> import heapd 

>>> a= [1, 4, 7, 10] 

2> b = [2, 5, 6; 11] 

>>> for c in heapq.merge(a, b): 









































print (c) 


PRADO BNP es à’ 


0 
1 


4.15.3 讨论 
heapq.merge 的 迭代 性 质 意味 着 它 对 所 有 提供 的 序列 都 不 会 做 一 次 性 读 取 。 这 意味 着 可 
以 利用 它 处 理 非常 长 的 序列 ， 而 开销 却 非常 小 。 例 如 ， 下 面 这 个 例子 告诉 我 们 如 何 合 
并 两 个 有 序 的 文件 : 


import heapq 











with open('sorted_file_1', 'rt') as filel, \ 
open('sorted_file_2') 'rt' as file2, \ 
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open('merged_file', 'wt') as outf: 


for line in heapq.merge(filel, file2): 
outf.write (line) 




















需要 重点 强调 的 是 ,heapq.merge0 要 求 所 有 的 输入 序列 都 是 有 序 的 。 特别 是 , 它 不 会 首 
先 将 所 有 的 数据 读 取 到 堆 中 ,或 者 预先 做 任何 的 排序 操作 。 它 也 不 会 对 输入 做 任何 验 
证 ， 以 检查 它们 是 否 满足 有 序 的 要 求 。 相 反 ， 它 只 是 简单 地 检查 每 个 输入 序列 中 的 第 
一 个 元 素 ， 将 最 小 的 那个 发 送出 去 。 然 后 再 从 之 前 选择 的 序列 中 读 取 一 个 新 的 元 素 ， 











再 重复 执行 这 个 步 又， 直到 所 有 的 输入 序列 都 耗 尽 为 止 。 


4.16 ”用 和 迭代 器 取代 while 循环 
4.16.1 问题 


我 们 的 代码 采用 while 循环 来 迭代 处 理 数据 , 因为 这 其 中 涉及 调用 某 个 函数 或 有 某 种 不 


常见 的 测试 条 件 ， 而 这 些 东 西 没 法 归 类 为 常见 的 迭代 模式 。 


416.2 解决 方案 
在 涉及 VO 处 理 的 程序 中 ， 编 写 这 样 的 代码 是 很 常见 的 ; 


CHUNKSIZE = 8192 




















def reader(s): 


while True: 
data = s.recv(CHUNKSIZE) 
if data == b'': 
break 


process_data (data) 


这 样 的 代码 常常 可 以 用 iter0 来 替换 ， 比 如 : 


def reader(s): 
for chunk in iter (lambda: s.recv(CHUNKSIZE), b''): 


process_data (data) 














如 果 对 这 样 的 代码 能 否 正常 工作 持 有 怀疑 态度 ， 可 以 用 一 个 有 关 文 件 处 理 的 类 似 例子 


K 


试验 一 下 : 


>>> import sys 

>>> f = open('/etc/passwd') 

>>> for chunk in iter(lambda: f.read(10), ''): 
n = sys.stdout.write (chunk) 
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nobody: *:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 
daemon:*:1:1:System Services:/var/root:/usr/bin/false 


_uucp:*:4:4:Unix to Unix Copy Protocol:/var/spool/uucp:/usr/sbin/uucico 


>>> 


4.16.3 讨论 

关于 内 建 函 数 iter0 ， 一 个 少 有 人 知 的 特性 是 它 可 以 选择 性 接受 一 个 无 参 的 可 调用 对 象 
以 及 一 个 哨兵 ( 结束 ) 值 作为 输入 。 当 以 这 种 方式 使 用 时 ，iter0 会 创建 一 个 迭代 器 ， 
然后 重复 调用 用 户 提 供 的 可 调用 对 象 ， 直 到 它 返 回 哨兵 值 为 止 。 

这 种 特定 的 方式 对 于 需要 重复 调用 函数 的 情况 ,比如 这 些 涉 及 IO 的 问题 , 有 很 好 的 效 
果 。 比 如 ， 如 果 想 从 socket 或 文件 中 按 块 读 取 数 据 , 通常 会 重复 调用 read0 或 者 recv(), 
然后 紧 跟着 检测 是 否 到 达 文 件 结尾 。 而 我 们 给 出 的 解决 方案 简单 地 将 这 两 个 功能 合并 
为 一 个 单独 的 iter0 调 用 ,解决 方案 中 对 lambda 的 使 用 是 为 了 创建 一 个 不 带 参数 的 可 调 
用 对 象 ， 但 是 还 是 可 以 对 recv0 或 read0 提 供 所 需要 的 参数 。 
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MEA I/O 














任何 程序 都 需要 处 理 和 输入 和 输出 。 本 章 介 绍 了 处 理 各 种 不 同类 型 文件 时 的 惯用 方法 ， 
包括 文本 和 二 进 制 文件 的 处 理 、 文 件 编码 以 及 其 他 一 些 相 关 的 内 容 。 用 来 处 理 文件 名 








和 目录 相关 的 技术 也 有 涵盖 。 


5.1 读 写 文 本 数据 


5.1.1 问题 

我 们 需要 对 文本 数据 进行 读 写 操 作 ， 但 这 个 过 程 有 可 能 针对 不 同 的 文本 编码 进行 ， 
如 ASCIT、UTF-8 或 UTF-16 编码 。 

5.1.2 解决 方案 

可 以 使 用 open0 函 数 配 合 rt 模式 来 读 取 文 本 文件 的 内 容 。 示 例如 下 : 


# Read the entire file as a single string 









































with open('somefile.txt', 'rt') as f: 
data = f.read() 


# Iterate over the lines of the file 
with open('somefile.txt', 'rt') as f: 
for line in f: 


# process line 





类 似 地 ， 要 对 文本 文件 执行 写 人 操作 ， 可 以 使 用 open0 函 数 的 wt ERRER WMA 
操作 的 文件 已 存在 ， 那 么 这 会 清除 并 和 窗 盖 其 原先 的 内 容 。 示 例如 下 : 
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# Write chunks of text data 

with open('somefile.txt', 'wt') as f: 
f.write(text1) 
f.write (text2) 


# Redirected print statement 

with open('somefile.txt', 'wt') as f: 
print(linel, file=f) 
print (line2, file=f) 





如 果 要 在 已 存在 文件 的 结尾 处 追加 内 容 ， 可 以 使 用 open0 函 数 的 at 模式。 

默认 情况 下 ,文件 的 读 取 和 写 入 采用 的 都 是 系统 默认 的 文本 编码 方式 ， 这 可 以 通过 
sys.getdefaultencoding0) 来 查询 。 在 大 多 数 机 右上 ， 这 项 设 定 都 被 设置 为 utf-8。 如 果 我 
们 知道 正在 读 取 或 写 和 的 文本 采用 的 是 另外 一 种 编码 方式 ,那么 可 以 为 open0 函 数 提供 
一 个 可 选 的 编码 参数 。 示 例如 下 : 


with open('somefile.txt', 'rt', encoding='latin-1') as f: 







































































Python 可 以 识别 出 几 百 种 可 能 的 文本 编码 。 但是, 一些 常 见 的 编码 方式 不 外 乎 是 ascii、 
latin-1 、utf-8 以 及 utf-16。 如 果 要 同 Web 应 用 程序 打交道 ， 采 用 utf-8 编码 通常 是 比较 
保险 的 。ascii 编码 对 应 于 范围 U+0000 到 U+007F 中 的 7 比特 字符 。latin-1 编码 则 是 字 
节 0~255 对 Unicode 字符 U+0000 到 U+00FF 的 直接 映射 。 关 于 latin-1 编码 ， 值 得 注 
意 的 一 点 是 ， 当 读 取 到 未 知 编码 的 文本 时 是 不 会 产生 解码 错误 的 。 以 latin-1 方式 读 取 
文件 可 能 不 会 产生 完全 正确 的 解码 文本 , 但 是 要 从 中 提取 出 有 用 的 数据 仍然 是 足够 了 。 
此 外 ， 如 果 稍 后 将 数据 重新 写 人 到 文件 中 ， 那 么 原始 的 输入 数据 将 得 到 保留 。 


5.1.3 讨论 
一 般 来 说 ， 读 写 文本 文件 都 是 非常 简单 直接 的 。 但 是 ， 这 里 还 是 有 几 个 微妙 的 细节 需 
要 引起 注意 。 首 先 ， 我 们 在 示例 中 采用 了 with 语句 ， 这 会 为 使 用 的 文件 创建 一 个 上 下 
文 环 境 ( context )。 当 程序 的 控制 流程 离开 with 语句 块 后 ,文件 将 自动 关闭 。 我 们 并 不 
是 一 定 要 使 用 with 语句 ， 但 是 如 果 不 用 的 话 请 确保 要 记得 手动 关闭 文件 : 

f = open('somefile.txt', 'rt') 


data = f.read() 
f.close() 





















































































































































男 一 个 细微 的 问题 是 关于 换行 符 的 识别 ， 在 UNIX 和 Windows 上 它们 是 不 同 的 〈 即 ， 
\n 和 \rn 之 争 )。 默 认 情 况 下 ，Python 工作 在 “通用 型 换行 符 ” 模 式 下 。 在 该 模式 中 ， 
所 有 常见 的 换行 格式 都 能 识别 出 来 。 在 读 取 时 会 将 换行 符 转 换 成 一 个 单独 的 mn 字符。 
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同样 地 , 在 输出 时 换行 符 \n 会 被 转换 为 当前 系统 默认 的 换行 符 。 如 果 你 不 想 要 这 种 “ 翻 





译 ” 行 为 ， 可 以 给 open0 函 数 提供 一 个 newline=' ' 的 参数 ， 示 例如 下 : 


# Read with disabled newline translation 





with open('somefile.txt', 'rt', newline='') as f: 


为 了 说 明 其 中 的 区 别 ， 我 们 会 在 下 面 的 例子 中 看 到 ， 如 果 在 UNIX 机 器 上 读 取 由 














Windows 系统 编码 的 包含 有 原始 数据 hello world!\r\n HE, ZEH WTA ZRF 


>>> # Newline translation enabled (the default) 








>>> f = open('hello.txt', 'rt') 
>>> f.read() 


"hello world!\n' 


>>> # Newline translation disabled 

>>> g = open('hello.txt', 'rt', newline='') 
>>> g.read() 

"hello world!\r\n' 

>>> 





H, 
N: 





最 后 一 个 问题 是 关于 文本 文件 中 可 能 出 现 的 编码 错误 。 当 我 们 读 取 或 写 人 文本 文件 时 ， 


可 能 会 遇 到 编码 或 解码 错误 。 例 如 : 


>>> f = open('sample.txt', 'rt', encoding='ascii') 
>>> f.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, in decode 
return codecs.ascii_decode(input, self.errors) [0] 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 
12: ordinal not in range (128) 
>>> 

















如 果 遇 到 这 个 错误 ， 这 通常 表示 没有 以 正确 的 编码 方式 来 读 取 文件 。 应 该 仔细 
读 取 的 文本 的 相关 规范 ， 并 检查 自己 的 操作 是 否 正确 〈 例 如 不 要 用 latin-l 编码 
取 ， 换 成 utf-8 或 者 任何 所 需 的 编码 方式 )。 如 果 还 是 有 可 能 出 现 编码 错误 ， 则 
open() 函 数 提供 一 个 可 选 的 errors 参数 来 处 理 错误 。 下 面 是 几 个 常见 的 错误 处 理 
例子 : 


>>> # Replace bad chars with Unicode U+fffd replacement char 

































































>>> f = open('sample.txt', 'rt', encoding='ascii', errors='replace') 
>>> f.read() 

"Spicy Jalape?o!' 

>>> # Ignore bad chars entirely 


>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignore') 


阅读 要 
方式 读 
可 以 为 
方案 的 
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>>> g.read() 
"Spicy Jalapeo!' 
>>> 


如 果 常 常 在 摆弄 open0 函 数 的 encoding 和 errors 参数 ， 并 为 此 做 了 大 量 的 技巧 性 操作 
(hacks )， 那 就 适得其反 了 ， 因 为 生活 本 不 应 该 如 此 艰难 。 关 于 文本 ， 第 一 条 守则 就 是 
只 需要 确保 总 是 采用 正确 的 文本 编码 形式 即 可 。 当 对 此 抱 有 疑问 时 ， 请 使 用 默认 的 编 
码 设 定 ( 通常 是 utf-8 )。 












































5.2 ”将 输出 重 定向 到 文件 中 


5.2.1 问题 
我 们 想 将 print0 函 数 的 输出 重 定向 到 一 个 文件 中 。 


5.2.2 解决 方案 
对 于 这 个 问题 ， 只 需要 像 这 样 为 printo KÄE file 关键 字 参 数 即 可 . 


with open('somefile.txt', 'rt') as f: 
print ('Hello World!', file=f) 


5.2.3 讨论 
对 于 这 个 主题 确实 没 多 少 东 西 可 说 。 只 是 要 确保 文件 是 以 文本 模式 打开 的 。 如 果 文 件 
是 以 二 进 制 模 式 打开 的 话 ， 打 印 就 会 失败 。 

















5.3 ”以 不 同 的 分 隔 符 或 行 结尾 符 完成 打印 


5.3.1 问题 
我 们 想 通 过 printo 函数 输出 数据 ， 但 是 同时 也 希望 修改 分 隔 符 或 者 行 结尾 符 。 


5.3.2 ”解决 方案 
可 以 在 print0 函 数 中 使 用 sep 和 end 关键 字 参 数 来 根据 需要 修改 输出 。 示 例如 下 : 


>>> print ('ACME', 50, 91.5) 











ACME 50 91.5 

>>> print ('ACME', 50, 91.5, sep=',') 

ACME, 50,91.5 

>>> print ('ACME', 50, 91.5, sep=',', end='!!\n') 
ACME,50,91.5!! 


>>> 
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使 用 end 参数 也 是 在 输出 中 禁止 打印 出 换行 符 的 方式 。 示 例如 下 : 


>>> for i in range(5): 
print (i) 


mwWN Fr Os 


>>> for i in range(5): 
print (i, end=' ') 


01234 >>> 


5.3.3 讨论 
除了 空格 之 外 ， 当 还 需要 用 其 他 字符 来 分 隔 文 本 时 ,通常 在 printO 函 数 中 通过 sep 关键 
字 参 数 指定 一 个 不 同 的 分 隔 符 就 是 最 简单 的 方法 了 。 有 时 候 我 们 会 看 到 有 的 程序 员 会 
利用 strjoin0 来 实现 同样 的 效果 。 例 如 ， 

>>> print (','.join('ACME', '50','91.5') 


ACME, 50,91.5 
>>> 























strjoin0 的 问题 就 在 于 它 只 能 处 理 字 符 串 。 这 意味 着 我 们 常常 得 做 些 转换 才能 让 其 正常 
工作 。 比如 说 : 


>>> row = ('ACME', 50, 91.5) 
>>> print (','. join (row) ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: sequence item 1: expected str instance, int found 
>>> print (','.join(str(x) for x in row)) 
ACME, 50,91.5 
>>> 








其 实 不 必 这 么 大 费 周折 ， 只 要 用 print0 函 数 就 可 以 办 到 了 : 


>>> print (*row, sep=',') 
ACME, 50,91.5 
>>> 


5.4 读 写 二 进 制 数据 


5.4.1 问题 
我 们 需要 读 写 二 进 制 数据 ， 比 如 图 像 、 声 音 文件 等 。 
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54.2 ”解决 方案 
使 用 open() RACH rb 或 者 wb 模式 就 可 以 实现 对 二 进 制 数据 的 读 或 写 。 示 例如 下 : 


# Read the entire file as a single byte string 





with open('somefile.bin', 'rb') as f: 
data = f.read() 


# Write binary data to a file 
with open('somefile.bin', 'wb') as f: 
f.write(b'Hello World') 


当 读 取 二 进 制 数据 时 ,很 重要 的 一 点 是 所 有 的 数据 将 以 字 节 串 ( byte string ) 的 形式 
返回 ， 而 不 是 文本 字符 串 。 同 样 地 ， 当 写 和 二进制 数据 时 ， 数 据 必 须 是 以 对 象 的 形 
式 来 提供 ， 而 且 该 对 象 可 以 将 数据 以 字 节 形式 暴露 出 来 ( 即 ， 字 节 串 bytearray 对 
象 等 5 


5.4.3 讨论 
当 读 取 二 进 制 数据 时 ， 由 于 字 节 串 和 文本 字符 串 之 间 存 在 微妙 的 语义 差异 ， 这 可 能 会 
造成 一 些 潜 在 的 问题 。 特 别 要 注意 的 是 ， 在 做 索引 和 和 迭代 操作 时 ， 字 节 串 会 返回 代表 
该 字 节 的 整数 值 而 不 是 字符 串 。 示 例如 下 : 
>>> # Text string 
>>> t = 'Hello World' 
>>> t[0] 
H! 


>>> for c int: 
























































print (c) 


orrom.: 


>>> # Byte string 

>>> b = b'Hello World' 
>>> b[0] 

72 

>>> for c in b: 


print (c) 


72 
101 
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如 果 需 要 在 二 进 制 文件 中 读 取 或 写 人 文本 内 容 ， 请 确保 要 进行 编码 或 解码 操作 。 示 例 
如 下 : 
with open('somefile.bin', 'rb') as f: 


data = f.read(16) 
text = data.decode('utf-8"') 


with open('somefile.bin', 'wb') as f: 
text = 'Hello World' 
f.write(text.encode('utf-8')) 


关于 二 进 制 VO, 一 个 鲜 为 人 知 的 行为 是 , 像 数组 和 C 结构 体 这 样 的 对 象 可 以 直接 用 来 
进行 写 操作 ， 而 不 必 先 将 其 转换 为 byte 对象。 示例 如下: 


import array 


























nums = array.array('i', [1, 2, 3, 4]) 
with open('data.bin','wb') as f: 


f.write (nums) 





这 种 行为 可 适用 于 任何 实现 了 所 谓 的 “缓冲 区 接口 (buffer interface 》” 的 对 象 。 该 接口 
直接 将 对 象 底层 的 内 存 缓冲 区 暴露 给 可 以 在 其 上 进行 的 操作 。 写 入 二 进 制 数 据 就 是 这 
样 一 种 操作 。 

有 许多 对 象 还 支持 直接 将 二 进 制 数据 读 和 到 它们 底层 的 内 存 中 ， 只 要 使 用 文件 对 象 的 
readinto() 方 法 就 可 以 了 。 示 例如 下 : 


>>> import array 




















>>> a = array.array('i', [0, 0, 0, 0, 0, 0, 0, 0]) 

>>> with open('data.bin', 'rb') as f: 
f.readinto (a) 

16 

>>> a 


array('i', [1, 2, 3, 4, 0, 0, 0, 0]) 
>>> 











但 是 ， 使 用 这 项 技术 时 需要 特别 小 心 ， 因 为 这 常常 是 与 平台 特性 相关 的 ， 而 且 可 能 
赖 于 字 (word) 的 大 小 和 字 节 序 〈 即 大 端 和 小 端 ) 等 属性 。 请 参见 5.9 节 中 的 男 一 个 例 
子 ， 在 该 例 中 我 们 将 二 进 制 数据 读 人 到 一 个 可 变 缓冲 区 (mutable buffer ) 中 。 
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5.5 ”对 已 不 存在 的 文件 执行 写 入 操作 


5.5.1 问题 
我 们 想 将 数据 写 入 到 一 个 文件 中 ， 但 只 在 该 文件 已 不 在 文件 系统 中 时 才 这 么 做 。 


5.5.2 ”解决 方案 
这 个 问题 可 以 通过 使 用 open0 函 数 中 鲜 为 人 知 的 x 模式 替代 常见 的 w 模式 来 解决 。 示 
例如 下 : 


>>> with open('somefile', 'wt') as f: 
f.write('Hello\n') 























>>> with open('somefile', 'xt') as f: 
f.write('Hello\n') 


Traceback (most recent call last): 





File "<stdin>", line 1, in <module> 
FileExistsError: [Errno 17] File exists: 'somefile' 
>>> 





如 果 文 件 是 二 进 制 模式 的 ， 那 么 用 xb ERRE xt 即 可 。 


5.5.3 讨论 

本 节 中 的 示例 以 一 种 非常 优雅 的 方式 解决 了 一 个 常会 在 写 文件 时 出 现 的 问题 ( 即 ， 
意外 地 覆盖 了 某 个 已 存在 的 文件 )。 另 一 种 解决 方案 是 首先 像 这 样 检查 文件 是 否 已 
存在 : 


>>> import os 














>>> if not os.path.exists('somefile'): 
with open('somefile', 'wt') as f: 
f.write('Hello\n') 
else: 
print ('File already exists!') 


File already exists! 
>>> 





很 明显 , 使 用 x 模式 更 加 简单 直接 。 需要 注意 的 是 , x 模式 是 Python 3 中 对 open() K% 
的 扩展 。 在 早期 的 Python 版 本 或 者 在 Python 的 实现 中 用 到 的 底层 C 函数 库 里 都 不 存在 
这 样 的 模式 。 
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5.6 在 字符 串 上 执行 VO 操作 


5.6.1 问题 
我 们 想 将 一 段 文本 或 二 进 制 字符 串 写 人 类 侯 于 文件 的 对 象 上 。 


5.6.2 ”解决 方案 


使 用 io.StringIO0 和 io.BytesIOO 类 来 创建 类 似 于 文件 的 对 象 , 这 些 对 象 可 操作 字符 上 
据 。 示 例如 下 : 


>>> s = io.StringIO() 

>>> s.write('Hello World\n') 

12 

>>> print ('This is a test', file=s) 

T5 

>>> # Get all of the data written so far 
>>> s.getvalue() 

"Hello World\nThis is a test\n' 











it 
洋 


>>> # Wrap a file interface around an existing string 
>>> s = io.StringIO('Hello\nWorld\n') 

>>> s.read(4) 

"Hell! 

>>> s.read() 

"o\nWorld\n' 

>>> 


io.StringIO 类 只 能 用 于 对 文本 的 处 理 。 如 果 要 操作 二 进 制 数据 ， 请 使 用 io.BytesIO。 示 
例如 下 : 

>>> s = io.BytesI0() 

>>> s.write(b'binary data’) 

>>> s.getvalue() 

b'binary data' 

>> 


5.6.3 ”讨论 

当 出 于 某 种 原因 需要 模拟 出 一 个 普通 文件 时 ， 这 种 情况 下 StringIO 和 BytesIO 类 是 最 为 
适用 的 。 例 如 ， 在 单元 测试 中 ， 可 能 会 使 用 StringIO 来 创建 一 个 文件 型 的 对 象 ， 对 象 中 
包含 了 测试 用 的 数据 。 之 后 我 们 可 将 这 个 对 象 发 送 给 一 个 可 以 接受 普通 文件 的 函数 。 
请 注意 ，StringIO 和 BytesIO 实例 是 没有 真正 的 文件 描述 符 来 对 应 的 。 因 此 ， 它 们 没 法 
工作 在 需要 一 个 真正 的 系统 级 文件 例如 文件 、 管 道 或 套 接 字 的 代码 环境 中 。 
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5.7 读 写 压缩 的 数据 文件 


5.7.1 问题 
我 们 需要 读 写 以 gzip 或 bz2 格式 压缩 过 的 文件 中 的 数据 。 


5.7.2 ”解决 方案 
gzip 和 bz2 模块 使 得 同 这 类 压缩 型 文件 打交道 变 得 非常 简单 。 这 两 个 模块 都 提供 了 open() 
的 其 他 实现 , 可 用 于 处 理 压缩 文件 。 例 如 ,要 将 压缩 文件 以 文本 形式 读 取 , 可 以 这 样 处 理 ， 


# gzip compression 
import gzip 

















with gzip.open('somefile.gz', 'rt') as f: 
text = f.read() 


# bz2 compression 

import bz2 

with bz2.open('somefile.bz2', 'rt') as f: 
text = f.read() 


与 之 相似 ， 要 写 人 压缩 数据 ， 可 以 这 样 处 理 ; 


# gzip compression 

import gzip 

with gzip.open('somefile.gz', 'wt') as f: 
f.write (text) 





# bz2 compression 

import bz2 

with bz2.open('somefile.bz2', 'wt') as f: 
f.write (text) 


如 示例 代码 所 示 ， 以 上 所 有 的 VO 操作 都 会 采用 文本 形式 并 执行 Unicode 编码 /解码 操 
作 。 如 果 想 处 理 二 进 制 数 据 ， 请 使 用 rb 或 wb 模式 。 


5.7.3 讨论 

大 部 分 情况 下 读 写 压缩 数据 都 是 简单 而 直接 的 。 但 是 请 注意 ， 选 择 正确 的 文件 模式 是 
至 关 重 要 的 。 如 果 没 有 指定 模式 ， 那 么 默认 的 模式 是 二 进 制 ， 这 会 使 得 期 望 接 受 文本 
WEEP ARTE. gzip.open()All bz2.open0 所 接受 的 参数 与 内 建 的 open0 函 数 一 样 ， 也 支持 
encoding, errors, newline 等 关键 字 人 参数 。 

当 写 人 压缩 数据 时 , 压缩 级 别 可 以 通过 compresslevel 关键 字 参 数 来 指定 , 这 是 可 选 的 。 
示例 如 下 : 
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with gzip.open('somefile.gz', 'wt', compresslevel=5) as f: 
f.write (text) 


默认 级 别 是 9, 代表 着 最 高 的 压缩 等 级 。 低 等 级 的 压缩 可 带 来 更 好 的 性 能 表现 , 但 压缩 
比 就 没有 那么 大 。 

最 后 ，gzip.open0 和 bz2.open0 有 一 个 较 少 提 到 的 特性 ， 那 就 是 它们 能 够 对 已 经 以 二 进 
制 模 式 打开 的 文件 进行 和 加 操作 。 示 例如 下 : 


import gzip 








f = open('somefile.gz', 'rb') 
with gzip.open(f, 'rt') as g: 
text = g.read() 
这 种 行为 使 得 gzip 和 bz2 模块 可 以 同 各 种 类 型 的 类 文件 对 象 比如 套 接 字 、 管 道 和 内 存 
文件 一 起 工作 。 





5.8 ”对 固定 大 小 的 记录 进行 迭代 
5.8.1 问题 
与 其 按 行 来 检 代 文件 ， 我 们 想 对 一 系列 国定 大 小 的 记录 或 数据 抉 进行 送 代 。 


5.8.2 ”解决 方案 
可 以 利用 iter0 和 functools.partial0) 来 完成 这 个 巧妙 的 技巧 ， 示 例如 下 : 


from functools import partial 





RECORD_SIZE = 32 


with open('somefile.data', 'rb') as f: 
records = iter(partial(f.read, RECORD_SIZE), b'') 
for r in records: 


示例 中 的 records 对 象 是 可 迭代 的 ， 它 会 产生 出 固定 大 小 的 数据 块 直 到 到 达 文 件 结尾 。 
但 是 请 注意 ， 如 果 文 件 大 小 不 是 记录 大 小 的 整数 倍 的 话 ， 那 么 最 后 产生 出 的 那个 数据 
块 可 能 比 所 期 望 的 字 节 数 要 少 。 

5.8.3 讨论 

关于 iter() RAN, 一 个 少 有 人 知 的 特性 是 ,如 果 传 递 一 个 可 调用 对 象 及 一 个 哨兵 值 给 它 ， 
那么 它 可 以 创建 出 一 个 适 代 器 。 得 到 的 欠 代 器 会 重复 调用 用 户 提供 的 可 迭代 对 象 , 直 
到 返回 的 值 为 哨兵 值 为 止 ， 此 时 迭代 过 程 停止 。 
在 我 们 给 出 的 解决 方案 中 , functools.partial 用 来 创建 可 调用 对 象 , 每 次 调用 它 时 都 从 文 
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件 中 读 取 固定 的 字 节 数 。b"' 在 这 里 用 作 哨 兵 值 ， 当 读 取 到 文件 结尾 时 就 会 返回 这 个 值 ， 
此 时 迭代 过 程 结 

最 后 但 也 很 重要 的 是 ， 解 决 方案 中 展示 的 文件 是 以 二 进 制 模 式 打开 的 。 对 于 读 取 固定 
大 小 的 记录 ， 这 恕 怕 是 最 为 常见 的 情况 了。 如 果 要 针对 文本 文件 ， 那 么 按 行 读 取 CK 
认 的 迭代 行为 ) 更 为 普遍 一 些 。 
































5.9 将 二 进 制 数据 读 取 到 可 变 缓 冲 区 中 


5.9.1 问题 

我 们 想 将 二 进 制 数据 直接 读 取 到 一 个 可 变 缓冲 区 中 ， 中 间 不 经 过 任何 拷贝 环节 。 也 许 
我 们 想 原 地 修改 数据 再 将 它 写 回 到 文件 中 去 。 

5.9.2 ”解决 方案 

要 将 数据 读 取 到 可 变数 组 中 ， 使 用 文件 对 象 的 readinto0 方 法 即 可 。 示 例如 下 : 


import os .Path 








def read_into_buffer (filename) : 
buf = bytearray(os.path.getsize (filename) ) 
with open (filename, 'rb') as f: 
f.readinto (buf) 
return buf 


下 面 来 演示 这 个 函数 的 用 法 : 


>>> # Write a sample file 
>>> with open('sample.bin', 'wb') as f: 
f.write(b'Hello World') 


>>> buf = read_into_buffer('sample.bin') 

>>> buf 

bytearray(b'Hello World') 

>>> buf[0:5] = b'Hallo' 

>>> buf 

bytearray(b'Hallo World') 

>>> with open('newsample.bin', 'wb') as f: 
f.write (buf) 

1d 

>>> 


5.9.3 讨论 
文件 对 象 的 readinto0 方 法 可 用 来 将 数据 











T 








充 到 任何 预 分 配 好 的 数组 中 ， 这 包括 array 模 
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块 或 者 numpy 这 样 的 库 所 创建 的 数组 。 与 普通 的 read(0) 方 法 不 同 的 是 , readinto0 是 为 已 

存在 的 缓冲 区 填充 内 容 , 而 不 是 分 配 新 的 对 象 然后 再 将 它们 返回 。 因 此 ,可 以 用 readinto0 
来 避免 产生 额外 的 内 存 分 配 动作 。 例 如 ， 如 果 正 在 读 取 一 个 由 相同 大 小 的 记录 所 组 成 

的 二 进 制 文件 ， 可 以 像 这 样 编写 代码 : 


record size = 32 # Size of each record (adjust value) 



































buf = bytearray (record_size) 
with open('somefile', 'rb') as f: 
while True: 
n = f£.readinto (buf) 
if n < record size: 
break 
# Use the contents of buf 


这 里 用 到 的 另 一 个 有 趣 的 特性 应 该 就 是 内 存 映像 (memoryview ) 了 ， 它 使 得 我 们 可 以 
对 已 存在 的 缓冲 区 做 切片 处 理 ， 但 是 中 间 不 涉及 任何 拷贝 操作 ， 我 们 甚至 还 可 以 修改 
它 的 内 容 。 示 例如 下 : 

>>> buf 


bytearray (b'Hello World') 


>>> ml = memoryview (buf) 





>>> m2 = ml[-5:] 


>>> m2 

<memory at 0x100681390> 
>>> m2[:] = b'WORLD' 

>>> buf 

bytearray (b'Hello WORLD') 
>>> 











使 用 freadinto0 需 要 注意 的 一 点 是 ,必须 总 是 确保 要 检查 它 的 返回 值 , 即 实际 读 取 的 字 
节 数 。 

如 果 字 节 数 小 于 所 提供 的 缓冲 区 大 小 ， 这 可 能 表示 数据 被 截断 或 遭 到 了 破坏 ( 例如 ， 
如 果 期 望 读 取 到 一 个 准确 的 字 节 数 时 )。 

最 后 ， 可 以 在 各 种 库 模 块 找到 那些 带 有 “into” 的 函数 ( 例如 recv_into0 pack into() 
等 )。Python 中 有 许多 模块 都 已 经 支持 直接 VO 访问 了 ， 可 用 来 填充 或 修改 数组 和 缓冲 
区 中 的 内 容 。 

请 参见 6.12 节 中 那个 解释 二 进 制 结构 体 和 memoryview 用 法 的 示例 ， 那 个 例子 明显 要 
更 加 高 级 一 些 。 
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5.10 ”对 二 进 制 文件 做 内 存 映射 


5.10.1 问题 

我 们 想 通 过 内 存 映 射 的 方式 将 一 个 二 进 制 文件 加 载 到 可 变 的 字 节 数组 中 ， 这 样 可 以 随 
机 访问 其 内 容 ， 或 者 是 实现 就 地 修改 。 

5.10.2 ”解决 方案 


可 以 使 用 mmap 模块 实现 对 文件 的 内 存 映 射 操作 。 下 面 给 出 一 个 实用 函数 ， 以 可 移植 
的 方式 演示 如 何 打 开 一 个 文件 并 对 它 进 行内 存 映 射 操作 : 


import os 



































import mmap 


def memory map (filename, access=mmap.ACCESS WRITE): 
size = os.path.getsize (filename) 
fd = os.open(filename, os.O_RDWR) 
return mmap.mmap(fd, size, access=access) 


要 使 用 这 个 函数 ， 需 要 准备 一 个 已 经 创建 好 的 文件 并 为 之 填充 一 些 数据 。 下 面 的 例子 
告诉 我 们 如 何 创建 一 个 初始 文件 ， 然 后 将 其 扩展 为 所 需要 的 大 小 : 


>>> Size = 1000000 
>>> with open('data', 'wb') as f: 














f.seek (size-1) 
f.write(b'\x00') 


>>> 








下 面 是 用 memory_map() Ph BOC SCE AY ZA EERE AY BE : 


>>> m = memory_map('data') 
>>> len (m) 

1000000 
>>> m[0:10] 
b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00' 
>>> m[0] 
0 
>>> # Reassign a slice 

>>> m[0:11] = b'Hello World' 


>>> m.close() 








>>> # Verify that changes were made 
>>> with open('data', 'rb') as f: 
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print (f.read(11) ) 


b'Hello World' 
>>> 


由 mmap0 返 回 的 mmap 对 象 也 可 以 当做 上 下 文 管理 器 使 用 ， 在 这 种 情况 下 ， 底 层 的 文 
件 会 自动 关闭 。 示 例如 下 : 


>>> with memory map('data') as m: 











print (len (m) ) 
print (m[0:10]) 
1000000 
b'Hello World! 
>>> m.closed 


True 
>>> 





默认 情况 下 , memory _mapO 函 数 打 开 的 文件 既 可 以 读 也 可 以 写 。 对 数据 的 任何 修改 都 会 拷 
贝 回 原始 的 文件 中 。 如 果 需 要 只 读 访 问 ， 可 以 为 access 参数 提供 mmap.ACCESS READ 
值 。 示 例如 下 : 


m= memory map (filename, mmap.ACCESS READ) 


如 果 只 想 在 本 地 修改 数据 , 并 不 想 将 这 些 修 改写 回 到 原始 文件 中 , 可 以 使 用 mmap.ACCESS_ 
COPY 参数 : 








m = memory map (filename, mmap.ACCESS_COPY) 


5.10.3 讨论 

通过 mmap 将 文件 映射 到 内 存 中 后 ， 我 们 能 够 以 高 效 和 优雅 的 方式 对 文件 的 内 容 进行 
随机 访问 。 比 方 说 ， 与 其 打开 文件 后 通过 组 合 各 种 seek0 、read0 和 writeO 调 用 来 访问 , 
不 如 简单 地 将 文件 映射 到 内 存 ， 然 后 通过 切片 操作 来 访问 数据 。 

通常 , 由 mmapO 暴 露出 的 内 存 看 起 来 就 像 一 个 bytearray 对 象 。 但 是 , 利用 memoryview 
能 够 以 不 同 的 方式 来 解读 数据 。 比 如 : 


>>> m = memory_map('data') 















































>>> # Memoryview of unsigned integers 





>>> v = memoryview(m).cast('I') 
>>> v[0] = 7 

>>> m[0:4] 

b'\x07\x00\x00\x00' 

>>> m[0:4] = b'\x07\x01\x00\x00' 


>>> v[0] 
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263 
>>> 


应 该 强调 的 是 ， 对 某 个 文件 进行 内 存 映 射 并 不 会 导致 将 整个 文件 读 到 内 存 中 。 也 就 是 
说 ， 文 件 并 不 会 拷贝 到 某 种 内 存 缓冲 区 或 数组 上 。 相 反 ， 操 作 系统 只 是 为 文件 内 容 保 
留 一 段 虚 拟 内 存 而 已 。 当 访问 文件 的 不 同 区 域 时 ， 文 件 的 这 些 区 域 将 被 读 取 并 按照 需 
要 映射 到 内 存 区 域 中 。 但 是 ， 文 件 中 从 未 访问 过 的 部 分 会 简单 地 留 在 磁盘 上 。 这 一 切 
都 是 以 透明 的 方式 在 幕后 完成 的 。 

如 果 有 多 个 Python 解释 器 对 同一 个 文件 做 了 内 存 映射 ， 得 到 的 mmap 对 象 可 用 来 在 解 
释 器 之 间 交 换 数据 。 也 就 是 说 ， 所 有 的 解释 器 可 以 同时 读 / 写 数据 ， 在 一 个 解释 器 中 对 
数据 做 出 的 修改 会 自动 反映 到 其 他 的 解释 器 上 。 很 明显 ， 这 里 需要 一 些 额 外 的 步骤 来 
处 理 同 步 问 题 , 但 是 有 时 候 可 用 这 种 方法 作为 通过 管道 或 socket 传输 数据 的 替代 方式 。 
本 节 中 的 示例 已 经 尽量 以 通用 的 形式 实现 ， 能 够 在 UNIX 和 Windows 上 都 适用 。 请 注 
意 ， 对 于 mmap0 的 使 用 ， 不 同 的 平台 上 会 存在 一 些 差异 。 此 外 ， 还 有 选项 可 用 来 创建 
匿名 的 内 存 映射 区 域 。 如 果 对 此 感 兴趣 ， 请 确保 仔细 阅读 有 关 这 个 主题 的 Python 文档 
(http:/docs.python.org/3/library/mmap.html )。 
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5.11 处理 路 径 名 


5.11.1 问题 
我 们 需要 处 理 路 径 名 以 找 出 基文 件 名 、 目 录 名 、 绝 对 路 径 等 相关 的 信息 。 


5.11.2 ”解决 方案 


要 操纵 路 径 名 ， 可 以 使 用 os.path 模块 中 的 函数 。 下 面 是 一 个 交互 式 的 例子 ， 用 来 说 明 
其 中 一 些 核心 的 功能 : 


>>> import os 








>>> path = '/Users/beazley/Data/data.csv' 


>>> # Get the last component of the path 
>>> os.path.basename (path) 


"data.csv' 


>>> # Get the directory name 
>>> os.path. dirname (path) 
'/Users/beazley/Data' 


>>> # Join path components together 
>>> os.path.join('tmp', 'data', os.path.basename (path) ) 
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'tmp/data/data.csv' 


>>> # Expand the user's home directory 
>>> path = '~/Data/data.csv' 
>>> os.path.expanduser (path) 


'/Users/beazley/Data/data.csv' 


>>> # Split the file extension 
>>> os.path.splitext (path) 
('~/Data/data', '.csv') 

>> 


5.11.3 ”讨论 
对 于 任何 需要 处 理 文件 名 的 问题 ， 都 应 该 使 用 os.path 模块 而 不 是 通过 使 用 标准 的 字符 
串 操作 来 自己 实现 这 部 分 功能 。 部 分 原因 是 为 了 考虑 可 移植 性 。os.path 模块 知道 UNIX 


和 Windows 系统 之 间 的 一 些 差异 ， 能 够 可 靠 地 处 到 

















类 似 Data/data.csv 和 Data\data.csv 


























这 样 的 文件 名 。 其 次 ， 我 们 真 的 不 应 该 花 时 间 去 重 造 轮 子 。 通 常 最 好 是 直接 使 用 那些 
已 经 提供 了 的 功能 。 
应 该 值得 一 提 的 是 ，os.path 模块 中 还 有 许多 功能 没有 在 本 节 中 展示 出 来 。 可 以 参阅 文 
档 以 获得 更 多 同文 件 测试 、 符 号 链接 等 功能 相关 的 函数 。 


5.12 

















5.12.1 问题 


我 们 需要 检测 某 个 文件 或 目录 是 否 存 在 。 





5.12.2 ”解决 方案 
可 以 通过 os.path 模块 来 检测 某 个 文件 或 目录 是 否 存 在 。 示 例如 下 : 


之 后 可 以 执行 进一步 的 测试 来 查 明 这 个 文件 的 类 





>>> import os 

>>> os.path.exists('/etc/passwd') 
True 

>>> os.path.exists('/tmp/spam') 
False 

>> 


检测 就 会 返回 False : 


>>> # Is a regular file 


检测 文件 是 否 存在 





型 


EO 











如 果 文 件 不 存在 的 话 ， 下 面 这 些 
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>>> os.path.isfile('/etc/passwd') 


True 


>>> # Is a directory 
>>> os.path.isdir('/etc/passwd') 


False 


>>> # Is a symbolic link 
>>> os.path.islink('/usr/local/bin/python3') 
True 


>>> # Get the file linked to 

>>> os.path.realpath('/usr/local/bin/python3') 
'/usr/local/bin/python3.3' 

>>> 


如 果 需 要 得 到 元 数据 ( 即 ， 文 件 大 小 或 修改 日 期 )， 这 些 功 能 在 os.path 模块 中 也 有 提供 : 


>>> os.path.getsize('/etc/passwd') 

3669 

>>> os.path.getmtime('/etc/passwd') 
1272478234.0 

>>> import time 

>>> time.ctime(os.path.getmtime('/etc/passwd') 
"Wed Apr 28 13:10:34 2010' 

>> 


5.12.3 讨论 


利用 os.path 模块 来 对 文件 做 检测 是 简 
和 情 就 是 关于 权限 的 问题 了 一 一 尤其 是 获取 元 数据 的 操作 。 比 如 : 


>>> os.path.getsize('/Users/guido/Desktop/foo.txt") 




















Im 



































hl 








Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/genericpath.py", line 49, in getsize 
return os.stat (filename) .st size 
PermissionError: [Errno 13] Permission denied: '/Users/guido/Desktop/foo.txt' 
>>> 


5.13 获取 目录 内 容 的 列表 


5.13.1 问题 
我 们 想 获取 文件 系统 中 茶 个 目录 下 所 包含 的 文件 列表 。 


而 直接 的 。 也 许 在 编写 脚本 时 唯一 需要 注意 的 
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5.13.2 ”解决 方案 
可 以 使 用 oslistdirO 函 数 来 获取 目录 中 的 文件 列表 。 示 例如 下 : 


import os 








names = os.listdir('somedir') 


这 么 做 会 得 到 原始 的 目录 文件 列表 ， 包 括 所 有 的 文件 、 子 目录 、 符 号 链接 等 。 如 果 需 
要 以 某 种 方式 来 租 选 数据 ， 可 以 考虑 利用 列表 推导 式 结合 os.path 模块 中 的 各 种 函数 来 
完成 。 示 例如 下 : 


import os.path 





# Get all regular files 
names = [name for name in os.listdir('somedir') 


if os.path.isfile(os.path.join('somedir', name))] 


# Get all dirs 
dirnames = [name for name in os.listdir('somedir') 


if os.path.isdir(os.path.join('somedir', name) )] 


字符 串 的 startswithO0 和 endswith0) 方 法 对 于 筛选 目录 中 的 内 容 也 同样 有 用 。 比 如 : 


pyfiles = [name for name in os.listdir('somedir') 





if name.endswith('.py') ] 


至 于 文件 名 的 匹配 ， 可 能 会 想到 用 glob 或 者 fnmatch 模块 。 示 例如 下 : 
import glob 


pyfiles = glob.glob('somedir/*.py') 


from fnmatch import fnmatch 
pyfiles = [name for name in os.listdir('somedir') 
if fnmatch (name, '*.py')] 


5.13.3 ”讨论 


得 到 目录 中 内 容 的 列表 很 简单 ， 但 是 这 只 会 带 来 目录 中 每 个 条 目的 名 称 。 如 果 想 得 到 
aif 附加 的 元 数据 ， 比 如 文件 大 小 、 修 订 日 期 等 , 要 么 使 用 os. path 模块 中 的 其 他 函数 ， 
要 么 使 用 os.stat0 函 数 。 要 收集 这 些 数据 ， 请 参见 示例 : 


# Example of getting a directory listing 











import os 
import os.path 
import glob 


pyfiles = glob.glob('*.py') 
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# Get file sizes and modification dates 
name sz date = [(name, os.path.getsize(name), os.path.getmtime (name) ) 
for name in pyfiles] 


for name, size, mtime in name_sz date: 


print (name, size, mtime) 


# Alternative: Get file metadata 
file metadata = [(name, os.stat(name)) for name in pyfiles] 
for name, meta in file metadata: 


print (name, meta.st_size, meta.st_mtime) 


最 后 但 也 很 重要 的 是 ， 请 注意 有 关 文 件 名 编码 时 会 出 现 的 一 些微 妙 问题 。 一 般 来 说 ， 
像 os.listdir0 这 样 的 函数 返回 的 条 目 都 会 根据 系统 默认 的 文件 名 编码 方式 来 进行 解码 处 
理 。 但 是 ， 有 可 能 在 特定 的 条 件 下 会 遇 到 无 法 解码 的 文件 名 。5.14 节 和 5.15 节 中 有 更 
多 关于 处 理 这 样 的 名 称 时 应 该 注意 的 细节 。 



































5.14 ” 绕 过 文件 名 编码 


5.14.1 问题 


我 们 想 对 使 用 了 原始 文件 名 的 文件 执行 IO 操作 , 这 些 文件 名 没有 根据 默认 的 文件 名 编 
码 规则 来 解码 或 编码 。 


5.14.2 ”解决 方案 


默认 情况 下 ， 所 有 的 文件 名 都 会 根据 sys.getfilesystemencoding() 返 回 的 文本 编码 形式 进 
行 编码 和 解码 。 例 如: 


>>> sys.getfilesystemencoding() 
‘ut £-8' 
>>> 


如 果 基 于 某 些 原因 想 忽略 这 种 编码 ， 可 以 使 用 原始 字 节 串 来 指定 文件 名 。 示 例如 下 : 


>>> # Wrte a file using a unicode filename 





















































>>> with open('jalape\xflo.txt', 'w') as f: 
f.write('Spicy!') 


6 
>>> # Directory listing (decoded) 
>>> import os 


>>> os.listdir('.') 
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['jalapefo.txt"] 


>>> # Directory listing (raw) 
>>> os.listdir(b'.') # Note: byte string 
[b' jalapen\xcc\x83o0.txt'] 


>>> # Open file with raw filename 

>>> with open(b'jalapen\xcc\x830.txt') as f: 
print (f.read() 

Spicy! 

>>> 





在 上 两 个 操作 中 可 以 看 到 ， 当 给 同文 件 相关 的 函数 比如 openO 和 os.listdir0 提 供 字 节 是 
参数 时 ， 对 文件 名 的 处 理 就 发 生 了 微小 的 改变 。 

5.14.3 ”讨论 

一 般 情况 下 ， 不 应 该 去 担心 有 关 文 件 名 编码 和 解码 的 问题 一 一 普通 的 文件 名 操作 应 该 
能 正常 工作 。 但 是 ， 有 许多 操作 系统 可 能 会 允许 用 户 通过 意外 或 恶意 的 方式 创建 出 文 


件 名 不 遵守 期 望 的 编码 规则 的 文件 。 这 样 的 文件 名 可 能 会 使 得 处 理 大 量 文件 的 Python 
程序 莫名 其 妙 地 崩溃 。 


在 读 取 目 录 和 同文 件 名 打交道 时 ， 以 原始 的 未 解码 的 字 节 作为 文件 名 就 可 以 避免 这 样 
的 问题 ， 只 是 编程 的 时 候 要 麻烦 一 些 。 


请 参见 5.15 节 中 关于 打印 出 无 法 解码 的 文件 名 的 相关 示例 。 


Ud 








































































































5.15 打印 无 法 解码 的 文件 名 


5.15.1 问题 


我 们 的 程序 接收 到 一 个 目录 内 容 的 列表 ， 但 是 当 程 序 试 着 打印 出 文件 名 时 ， 会 出 现 
UnicodeEncodeError 异常 并 伴随 着 一 条 难以 理解 的 提示 信息 :“ 不 允许 代理 〈surrogates 
not allowed 办 ， 然 后 程序 就 月 省 了 。 


5.15.2 ”解决 方案 
当 打 印 来 路 不 明 的 文件 名 时 ， 可 以 使 用 下 面 的 方式 来 避免 出 现 错误 : 


def bad filename (filename): 
return repr (filename) [1:-1] 
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print (filename) 
except UnicodeEncodeError: 
print (bad_filename (filename) ) 


5.15.3 ”讨论 
当 程 序 必 须 去 操纵 文件 系统 时 ， 本 节 提 到 了 一 个 一 般 情 况 下 很 罕见 但 却 非常 令 人 头疼 
的 问题 。 默 认 情 况 下 ，Python 假设 所 有 的 文件 名 都 是 根据 sys.getfilesystemencodingO 返 
回 的 编码 形式 进行 编码 的 。 但 是 ， 某 些 文件 系统 不 一 定 会 强制 执行 这 种 编码 约束 ， 因 
此 会 允许 文件 以 不 恰当 的 编码 方式 来 命名 。 这 并 不 常见 ， 但 是 总 有 某 些 用 户 会 做 出 些 
思春 的 事情 ， 意 外 地 创建 出 这 么 一 个 文件 来 ( 即 ， 可 能 在 某 些 有 问题 的 代码 中 将 不 恰 
当 的 文件 名 传 给 open) )。 因 此 危险 总 是 存在 的 。 

当 执 行 类 似 os.listdir0) 这 样 的 命令 时 , 错误 的 文件 名 会 使 Python AA BBW SEH Tr 
面 Python 不 能 直接 丢弃 错误 的 名 字 ， 而 男 一 方面 它 也 无 法 将 文件 名 转 为 合适 的 文本 字 
符 串 。 对 于 这 个 问题 ,Python 的 解决 方案 是 在 文件 名 中 取出 一 个 无 法 解码 的 字 节 值 \xhh， 
将 其 映射 到 一 个 所 谓 的 “代理 编码 (surrogate encoding )” 中 ， 代 理 编码 由 Unicode F 
符 \udchh 来 表示 。 参见 下 面 的 示例 , 在 一 个 有 缺陷 的 目录 列表 中 包含 着 一 个 名 为 bid.txt 
的 文件 ， 该 文件 名 的 编码 方式 为 Latin-1 而 不 是 UTF-8， 我 们 来 看 看 显示 出 来 的 结果 : 


>>> import os 































































































>>> files = os.listdir('.') 

>>> files 

['spam.py', 'b\udce4d.txt', 'foo.txt'] 
>>> 


如 果 代 码 只 是 用 来 操纵 文件 名 或 者 甚至 是 将 文件 名 传递 给 函数 〈 比如 open’) )， 一 切 都 
能 正常 工作 。 只 有 当 想 把 文件 名 输出 时 才 会 陷入 麻烦 ( 即 ， 打 印 到 屏 磋 、 记 录 到 日 志 
上 等 )。 具 体 而 言 ， 如 果 试 着 打印 上 面 这 个 列表 ， 程 序 就 会 衣 溃 : 


>>> for name in files: 








print (name) 
spam.py 
Traceback (most recent call last): 
File "<stdin>", line 2, in <module> 
UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in 


position 1: surrogates not allowed 
>>> 





月 演 的 原因 在 于 字符 \udce4 不 是 合法 的 Unicode 字符 。 它 实际 上 是 2 字符 组 合 的 后 半 部 
分 ， 这 个 组 合 称 为 代理 对 (surrogate pair )。 但 是 ， 由 于 前 半 部 分 丢失 了 ， 因 此 是 非法 
的 Unicode。 所 以 ， 唯 一 能 成 功 产 生 输 出 的 方式 是 ， 当 遇 到 有 问题 的 文件 名 时 采取 纠正 
措施 。 比 如 ， 将 代码 改 为 下 面 的 方式 就 能 产生 出 结果 了 : 





















































文件 和 I/O 163 


>>> for name in files: 
try: 
print (name) 
except UnicodeEncodeError: 
print (bad_filename (name) ) 
spam. py 
b\udce4d. txt 


foo.txt 
>>> 


函数 bad filename() 要 实现 什么 功能 很 大 程度 上 取决 于 自己 的 选择 。 比 如 ， 男 一 种 选择 
是 以 其 他 方式 重新 编码 ， 就 像 这 样 : 


def bad filename (filename) : 









































temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape') 
return temp.decode('latin-1') 


如 果 使 用 上 面 这 个 版 本 的 bad filename()， 就 会 产生 如 下 的 输出 : 


>>> for name in files: 








try: 
print (name) 
except UnicodeEncodeError: 
print (bad filename (name)) 
spam.py 
bäd.txt 


foo.txt 
>>> 


大 部 分 读者 可 能 都 会 忽略 这 一 节 的 内 容 。 但 是 ， 如 果 要 编写 完成 关键 任务 的 脚本 ， 需 


要 可 靠 地 与 文件 名 以 及 文件 系统 打交道 ,那么 就 需要 好 好 考虑 本 市 的 内 容 。 否 则 ， 可 
能 就 需要 周末 被 叫 去 办 公 室 调试 一 个 看 似 无 法 理解 的 错误 。 




















5.16 为 已 经 打开 的 文件 添加 或 修改 编码 方式 


5.16.1 问题 
我 们 想 为 一 个 已 经 打开 的 文件 添加 或 修改 Unicode 编码 ， 但 不 必 首 先 将 其 关闭 。 


5.16.2 解决 方案 
如 果 想 为 一 个 以 二 进 制 模式 打开 的 文件 对 象 添加 Unicode 编码 /解码 ， 可 以 用 
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io.TextIOWrapper(0) 对 象 将 其 包装 。 示 例如 下 : 


import urllib.request 
import io 


u = urllib.request.urlopen('http://www.python.org') 
f = io.TextIOWrapper (u, encoding='utf-8') 
text = f.read() 




































































>>> import sys 
>>> sys.stdout.encoding 
'UTF-8' 





如 果 想 修改 一 个 已 经 以 文本 模式 打开 的 文件 的 编码 方式 ， 可 以 在 用 新 的 编码 替换 之 前 的 
编码 前 ， 用 detach0 方 法 将 已 有 的 文本 编码 层 移 除 。 下 面 是 修改 sys.stdout 编码 的 例子 : 














>>> sys.stdout = io.TextIOWrapper (sys.stdout.detach(), encoding='latin-1') 


>>> sys.stdout.encoding 
"latin-1' 
>>> 




















这 么 做 可 能 会 破坏 终端 上 的 输出 ， 这 里 只 是 用 做 说 明 使 用 。 
5.16.3 ”讨论 


VO 系统 是 以 一 系列 的 层次 来 构建 的 。 我 们 可 以 通过 下 面 这 个 涉及 文本 文件 的 简单 例子 


来 观察 这 些 层次 : 


>>> f = open('sample.txt', 'w') 

>>> f 

<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> f.buffer 

<_io.BufferedWriter name='sample.txt'> 

>>> f.buffer.raw 

<_io.FileIO name='sample.txt' mode='wb'> 

>>> 





在 这 个 例子 中 ，io.TextIOWrapper 是 一 个 文本 处 理 层 ， 它 负责 编码 和 
io.BufferedWriter 是 一 个 缓冲 VO 层 ， 负 责 处 理 二 进 制 数据 。 最 后 ， 
台 文件 ， 代 表 着 操作 系统 底层 的 文件 描述 符 。 添 加 或 修改 文本 的 编 




















上 解码 Unicode. mi 
io.FilelO 是 一 个 原 
码 涉及 添加 或 修改 














最 上 层 的 io.TextlOWrapper JZ. 

















作为 一 般 的 规则 ， 直 接 通 过 访问 上 面 展 示 的 属性 来 操纵 不 同 的 层次 是 不 安全 的 。 比 如 ， 














如 果 用 这 种 技术 来 修改 编码 的 话 ， 看 看 会 出 现 什么 情况 : 
>>> Í 


<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 


>>> f = io.TextlOWrapper(f.buffer, encoding='latin-1') 
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>>> f 
<_io.TextIOWrapper name='sample.txt' encoding='latin-1'> 
>>> f.write('Hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: I/O operation on closed file. 
>>> 


这 根本 不 起 作用 ， 因 为 f 之 前 的 值 已 经 被 销毁 ， 在 这 个 过 程 中 导致 底层 的 文件 被 关闭 。 
detach0 方 法 将 最 上 层 的 io.TextIOWrapper 层 同 文件 分 离开 来 ， 并 将 下 一 个 层次 
(io.BufferedWriter ) 返回 。 在 这 之 后 ， 最 上 层 将 不 再 起 作用 。 示 例如 下 : 


>>> f = open('sample.txt', 'w') 
>>> f 





<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> b = f.detach() 
>>> b 
<_io.BufferedWriter name='sample.txt'> 
>>> f.write('hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ValueError: underlying buffer has been detached 
>>> 


一 旦 完成 分 离 ， 就 可 以 为 返回 的 结果 添加 一 个 新 的 最 上 层 。 示 例如 下 : 


>>> f = io.TextIOWrapper (b, encoding='latin-1') 
>>> f 





<_io.TextIOWrapper name='sample.txt' encoding='latin-1'> 
>>> 


SAP CMT ZAR AN SUM aa aK, FES AT AA ROR BEAST 
的 处 理 、 错 误 处 理 机 制 以 及 其 他 有 关 文 件 处 理 方面 的 行为 。 示 例如 下 : 


>>> sys.stdout = io.TextIOWrapper (sys.stdout.detach(), encoding='ascii', 











aoe errors='xmlcharrefreplace') 
>>> print ('Jalape\u00f1o') 
Jalape&#241;0 

>>> 


在 输出 中 ， 我 们 注意 到 非 ASCH 字符 i 已 经 被 &#241 所 取代 了 。 


5.17 将 字 节 数据 写 入 文本 文件 


5.17.1 问题 
我 们 想 将 一 些 原始 字 节 写 人 到 以 文本 模式 打开 的 文件 中 。 
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5.17.2 ”解决 方案 
只 需要 简单 的 将 字 节 数据 写 人 到 文件 底层 的 buffer 中 就 可 以 了 。 示 例如 下 : 


>>> import sys 





>>> sys.stdout.write(b'Hello\n') 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: must be str, not bytes 

>>> sys.stdout.buffer.write(b'Hello\n') 

Hello 

5 

>>> 





同样 地 ， 我 们 也 可 以 从 文本 文件 中 读 取 二 进 制 数据 ， 只 要 通过 buffer 属性 来 读 取 即 可 。 


5.17.3 讨论 

VO 系统 是 以 不 同 的 层次 来 构建 的 。 文本 文件 是 通过 在 缓冲 的 二 进 制 模 式 文件 之 上 添加 
一 个 Unicode 编码 /解码 层 来 构建 的 。buffer 属性 简单 地 指向 底层 的 文件 。 如 果 访 问 该 属 
性 ， 就 可 以 绕 过 文本 编码 /解码 层 了 。 

例子 中 的 sys.stdout 可 以 被 视 为 特殊 情况 。 默认 情况 下 ，sys.stdout 总 是 以 文本 模式 打开 
的 。 但 是 ， 如 果 要 编写 一 个 需要 将 二 进 制 数 据 转 储 到 标准 输出 的 脚本 ,就 可 以 使 用 上 
面 演 示 的 技术 来 绕 过 文本 编码 层 。 


5.18 ”将 已 有 的 文件 描述 符 包 装 为 文件 对 象 


5.18.1 问题 

我 们 有 一 个 以 整数 值 表示 的 文件 描述 符 , 它 已 经 同 操作 系统 中 已 打开 的 IO 通道 建立 起 
THA CBI, 文件 、 管 道 socket 等 )。 而 我 们 希望 以 高 级 的 Python 文件 对 象 来 包装 这 
个 文件 描述 符 。 


5.18.2 解决 方案 

文件 描述 符 与 一 般 打开 的 文件 相 比 是 有 区 别 的 。 区 别 在 于 ， 文 件 描述 符 只 是 一 个 由 操 
作 系 统 分 配 的 整数 句柄 ,用 来 指 代 某 种 系统 1/O 通道 .如 果 刚 好 有 这 样 一 个 文件 描述 符 ， 
就 可 以 通过 open0 函 数 用 Python 文件 对 象 对 其 进行 包装 。 这 很 简单 ， 只 需 将 整数 形式 
的 文件 描述 符 作为 第 一 个 参数 取代 文件 名 就 可 以 了 。 示 例如 下 : 


# Open a low-level file descriptor 































































































import os 
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fd = os.open('somefile.txt', os.O_WRONLY os.0O CREAT) 


# Turn into a proper file 
f = open(fd, 'wt') 
f.write('hello world\n') 
f.close() 


当 高 层 的 文件 对 象 被 关闭 或 销毁 时 ， 底 层 的 文件 描述 符 也 会 被 关闭 。 如 果 不 想 要 这 种 
行为 ， 只 需 给 open0 提 供 一 个 可 选 的 closefd=False 参数 即 可 。 示 例如 下 : 


# Create a file object, but don't close underlying fd when done 





f = open(fd, 'wt', closefd=False) 


5.18.3 讨论 

TE UNIX 系统 上 , 这 种 包装 文件 描述 符 的 技术 可 以 用 来 方便 地 对 以 不 同方 式 打 开 的 IO 
通道 ( 即 , 管道 socket 等 ) 提供 一 个 类 似 于 文件 的 接口 。 例 如 , 下 面 是 一 个 有 关 socket 
的 例子 : 


from socket import socket, AF_INET, SOCK_STREAM 























def echo client (client _sock, addr): 
print ('Got connection from', addr) 


# Make text-mode file wrappers for socket reading/writing 

client_in = open(client_sock.fileno(), 'rt', encoding='latin-1', 
closefd=False) 

client_out = open(client_sock.fileno(), 'wt', encoding='latin-1', 
closefd=False) 


# Echo lines back to the client using file I/O 
for line in client_in: 

client_out.write (line) 

client_out.flush() 
client _sock.close() 


def echo server (address): 
sock = socket (AF_INET, SOCK STREAM) 
sock. bind (address) 
sock. listen (1) 
while True: 
client, addr = sock.accept () 
echo client (client, addr) 


需要 重点 强调 的 是 , 上面 的 例子 仅仅 只 是 用 来 说 明 内 建 的 open0 函 数 的 一 种 特性 , 而 且 
只 能 工作 在 基于 UNIX 的 系统 之 上 。 如 果 想 在 socket 上 加 上 一 个 类 似 文件 的 接口 ， 并 









































且 需 要 做 到 跨 平 台 ， 那 么 就 应 该 使 用 socket 的 makefile0) 方 法 来 奉 代 。 但 是 ， 如 果 不 需 
要 考虑 可 移植 性 的 话 ， 就 会 发 现 上 面 给 出 的 解决 方案 在 性 能 上 要 比 makefile0 高 出 不 少 。 
也 可 以 利用 这 项 技术 为 一 个 已 经 打开 的 文件 创建 一 种 别名 ， 使 得 它 的 工作 方式 能 够 稍 
微 区 别 于 首次 打开 时 的 样子 。 比 方 说 ， 下 面 这 段 代 码 告 诉 我 们 如 何 创 建 一 个 文件 对 象 ， 
使 得 它 能 够 在 stdout 上 产生 出 二 进 制 数据 (通常 stdout 是 以 文本 模式 打开 的 ): 


import sys 




















# Create a binary-mode file for stdout 

bstdout = open(sys.stdout.fileno(), 'wb', closefd=False) 
bstdout .write(b'Hello World\n') 

bstdout. flush () 


尽管 我 们 可 以 将 一 个 已 存在 的 文件 描述 符 包 装 成 一 个 合适 的 文件 ， 但 是 请 注意 ， 并 非 
所 有 的 文件 模式 都 可 以 得 到 支持 ， 而 且 某 些 特定 类 型 的 文件 描述 符 可 能 还 带 有 有 趣 的 
副作用 (尤其 是 在 面 对 错 误 处 理 、 文 件 结尾 的 情况 时 )。 具 体 的 行为 也 可 能 因为 操作 系 
统 的 不 同 而 有 所 区 别 。 特 别 是 ， 上 面 所 有 的 示例 代码 都 没 法 在 非 UNIX 系统 上 工作 。 
因此 ， 最 基本 的 底线 就 是 需要 对 自己 的 实现 进行 彻底 的 测试 ， 确 保 代码 能 够 按照 期 户 
的 方式 工作 。 









































5.19 创建 临时 文件 和 目录 


5.19.1 问题 

当 程序 运行 时 ， 我 们 需要 创建 临时 文件 或 目录 以 便 使 用 。 在 这 之 后 ， 我 们 可 能 希望 将 
这 些 文件 和 目录 销毁 掉 。 

5.19.2 解决 方案 


tempfile 模块 中 有 各 种 函数 可 以 用 来 完成 这 个 任务 。 要 创建 一 个 未 命名 的 临时 文件 ， 可 
以 使 用 tempfile. TemporaryFile: 




















from tempfile import TemporaryFile 


with TemporaryFile('wtt') as f: 
# Read/write to the file 
f.write('Hello World\n') 
f.write('Testing\n') 


# Seek back to beginning and read the data 
f£.seek (0) 
data = f.read() 


# Temporary file is destroyed 
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或 者 如 果 你 喜欢 的 话 ， 也 可 以 像 这 样 使 用 文件 : 


f = TemporaryFile('wtt') 
# Use the temporary file 


f£.close() 

# File is destroyed 
TemporaryFile0 的 第 一 个 参数 是 文件 模式 ， 通 常 以 w+t 处 理 文本 模式 而 以 wb 处 理 二 
进 制 数据 。 这 个 模式 可 同时 支持 读 写 ， 在 这 里 是 很 有 用 的 ， 因 为 关闭 文件 后 再 来 修改 
模式 实际 上 会 销毁 文件 对 象 。 此 外 ，TemporaryFile0 也 可 以 接受 和 内 建 的 open0 函 数 一 
样 的 参数 。 示 例如 下 : 


with TemporaryFile('wtt', encoding='utf-8', errors='ignore') as f: 











在 大 多 数 UNIX 系统 上 , 由 TemporaryFileO 创 建 的 文件 都 是 未 命名 的 , 而 且 在 目录 中 也 
没有 对 应 的 条 目 。 如 果 想 解放 这 种 限制 ， 可 以 使 用 NamedTemporaryFile0 来 奉 代 。 示 例 
如 下 : 


from tempfile import NamedTemporaryFile 








with NamedTemporaryFile('wtt') as f: 


print ('filename is:', f.name) 


# File automatically destroyed 


这 里 ， 在 已 打开 文件 的 fname 属性 中 就 包含 了 临时 文件 的 文件 名 。 如 果 需 要 将 它 传 给 
其 他 需要 打开 这 个 文件 的 代码 时 ,这 就 显得 很 有 用 了 。 对 于 TemporaryFile() 而 言 , 结果 
文件 会 在 关闭 时 自动 删除 。 如 果 不 想 要 这 种 行为 ， 可 以 提供 一 个 delete=False 关键 字 参 
数 。 示 例如 下 : 


with NamedTemporaryFile('wtt', delete=False) as f: 




















print ('filename is:', f.name) 


要 创建 一 个 临时 目录 ， 可 以 使 用 tempfile.TemporaryDirectory() 来 实现 。 示 例如 下 : 


from tempfile import TemporaryDirectory 
with TemporaryDirectory() as dirname: 
print ('dirname is:', dirname) 


# Use the directory 


# Directory and all contents destroyed 
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5.19.3 讨论 

要 和 临时 文件 还 有 临时 目录 打交道 ， 最 方便 的 方式 就 是 使 用 TemporaryFile() 、 
NamedTemporaryFile() 以 及 TemporaryDirectory0 这 三 个 函数 了 。 因 为 它们 能 自动 处 理 有 
关 创 建 和 清除 的 所 有 步 又 。 从 较 低 的 层次 来 看 ， 也 可 以 使 用 mkstemp0 和 mkdtemp() 来 
创建 临时 文件 和 目录 。 示 例如 下 : 


>>> import tempfile 

















>>> tempfile.mkstemp () 

(3, '/var/folders/7W/7W215sf£ZEF0p1jrEB1UMWE+++TI/-TImp-/tmp7fefhv') 
>>> tempfile.mkdtemp () 

'/var/folders/7W/7WZ15sf£ZEF 0p1jrEB1UMWE+++TI/-Tmp-/tmp5Swvcv6' 

>>> 






































但 是 ， 这 些 函 数 并 不 会 进一步 去 处 理 文件 管理 的 任务 。 例 如 ，mkstempO 函 数 只 是 简单 
地 返回 一 个 原始 的 操作 系统 文件 描述 符 ， 然 后 由 我 们 自行 将 其 转换 为 一 个 合适 的 文件 。 
同样 地 ， 如 果 想 将 文件 清理 掉 的 话 ， 这 个 任务 也 是 由 我 们 自己 完成 。 
一 般 情况 下 , 临时 文件 都 是 在 系统 默认 的 区 域 中 创建 的 , 比如 /var/tmp 或 者 类 似 的 地 方 。 
要 找 出 实际 的 位 置 ， 可 以 使 用 tempfile.gettempdir(0) 函 数 。 示 例如 下 : 

>>> tempfile.gettempdir () 


'/var/folders/7W/7WZ15sf£ZEF0p1jrEB1UMWE+++TI/-Tmp-' 
>>> 















































所 有 同 临时 文件 相关 的 函数 都 允许 使 用 prefix suffix 和 dir 关键 字 参 数 来 覆盖 目录 。 例 
un: 


>>> f = NamedTemporaryFile(prefix='mytemp', suffix='.txt', dir='/tmp') 
>>> f.name 

'/tmp/mytemp8ee899.txt! 

>>> 

















最 后 但 也 很 重要 的 是 ， 在 可 能 的 范围 内 ，tempfile 模块 创建 的 临时 文件 都 是 以 最 安全 的 方 
式 来 进行 的 。 这 包括 只 为 当前 用 户 提供 可 访问 的 权限 ， 并 且 在 创建 文件 时 采取 了 相应 的 步 
又 来 避免 出 现 竞 态 条 件 。 请 注意 ， 在 不 同 的 平台 下 这 可 能 会 有 一 些 区 别 。 因 此 ， 对 于 更 精 
细 的 要 点 ， 应 该 确保 自己 去 查阅 官方 文档 (http:/docs.python.org/3/library/tempfile.html )。 





























5.20 同 串口 进行 通信 


5.20.1 问题 
我 们 想 通 过 串口 读 取 和 写 入 数据 ， 典 型 情况 下 是 同 某 种 硬件 设备 进行 交互 ( 即 ， 机 带 
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人 或 传感器 )。 


5.20.2 ”解决 方案 

尽管 可 以 直接 通过 Python 内 建 的 IO 原 语 来 完成 这 个 任务 ， 但 对 于 串口 通信 来 说 ， 最 
好 还 是 使 用 pySerial 包 比 较 好 。 这 个 包 使 用 起 来 非常 简单 ， 要 打开 一 个 串口 ， 只 要 使 用 
这 样 的 代码 即 可 : 


import serial 


























ser = serial.Serial('/dev/tty.usbmodem641', # Device name varies 
baudrate=9600, 
bytesize=8, 
parity='N', 
stopbits=1) 


WZ PRAY BEAT A AREAS TAN Te), ean, Æ Windows 上 ， 可 以 
使 用 0、1 这 样 的 数字 代表 设备 来 打开 通信 端口 ， 比 如 “COM0” 和 “COM1”。 一 旦 打 
开 后 ， 就 可 以 通过 read0 、readline0 和 write0 调 用 来 读 写 数据 了 。 示 例如 下 : 


ser.write(b'Gl X50 Y50\r\n') 


resp = ser.readline() 
从 这 一 点 来 看 ， 大 部 分 情况 下 的 串口 通信 任务 应 该 是 非常 简单 的 。 


5.20.3 ”讨论 
尽管 表面 上 看 起 来 很 简单 ， 串 口 通信 常常 会 变 得 相当 混乱 。 应 该 使 用 一 个 像 pySerial 
这 样 的 包 的 原因 就 在 于 它 对 一 些 高 级 特性 提供 了 支持 ( 即 ， 超 时 处 理 、 流 控 、 刷 新 缓 
冲 区 、 握 手机 制 等 )。 比 如 ， 如 果 想 开启 RTS-CTS 握手 ， 只 要 简单 地 为 Serial0 提 供 一 
个 rtscts=True 关键 字 参 数 即 可 。pySerial 提供 的 文档 非常 棒 ， 所 以 在 这 里 多 解释 也 没 多 
大 用 处 。 
请 记 住所 有 涉及 串口 的 IO 操作 都 是 二 进 制 的 。 因此 , 确保 在 代码 中 使 用 的 是 字 节 而 不 
是 文本 (或 者 根据 需要 执行 适当 的 文本 编码 /解码 操作 )。 当 需要 创建 以 二 进 制 编码 的 命 
令 或 者 数据 包 时 ，struct 模块 也 会 起 到 不 少 作 用 。 










































































5.21 序列 化 Python 对 象 


5.21.1 问题 


我 们 需要 将 Python 对 象 序列 化 为 字 节 流 ， 这 样 就 可 以 将 其 保存 到 文件 中 、 存 储 到 数据 
库 中 或 者 通过 网 络 连接 进行 传输 。 
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5.21.2 ”解决 方案 
序列 化 数据 最 常见 的 做 法 就 是 使 用 pickle 模块 。 要 将 某 个 对 象 转 储 到 文件 中 ， 可 以 这 
样 做 : 


import pickle 

















data = ... # Some Python object 
f = open('somefile', 'wb') 
pickle.dump (data, f) 


要 将 对 象 转 储 为 字符 串 ， 可 以 使 用 pickle.dumps(): 


s = pickle.dumps (data) 


如 果 要 从 字 节 流 中 重新 创建 出 对 象 ， 可 以 使 用 pickle.load0 或 者 pickle.loadsO 函 数 。 示 
例如 下 : 


# Restore from a file 





f = open('somefile', 'rb') 
data = pickle.load(f) 


# Restore from a string 
data = pickle.loads(s) 


5.21.3 Wit 

对 于 大 部 分 程序 来 说 ， 只 要 掌握 dump0 和 lo0ad0 函 数 的 用 法 就 可 以 高 效 地 利用 pickle 
模块 了 。pickle 模块 能 够 兼容 大 部 分 Python 数据 类 型 和 用 户 自 定义 的 类 实例 。 如 果 正 
在 使 用 的 库 可 以 保存 /恢复 Python 对 象 到 数据 库 中 ， 或 者 通过 网 络 传输 对 象 , 那么 很 有 
可 能 就 在 使 用 pickle。 


pickle 是 一 种 Python 专 有 的 自 描述 式 的 数据 编码 。 说 到 自 描述 ， 因 为 序列 化 的 数据 中 
包含 有 每 个 对 象 的 开始 和 结束 以 及 有 关 对 象 类 型 的 信息 。 因 此 ， 不 需要 担心 应 该 如 何 
定义 记录 一 一 pickle 就 能 完成 了 。 例 如 ， 如 果 需 要 处 理 多 个 对 象 ， 可 以 这 么 做 : 


>>> import pickle 























>>> f = open('somedata', 'wb') 

>>> pickle.dump({1, 2, 3, 4], f) 

>>> pickle.dump('hello', f) 

>>> pickle.dump({'Apple', 'Pear', 'Banana'}, f) 
>>> £.close() 

>>> f = open('somedata', 'rb') 

>>> pickle. load(f) 

[1, 2, 3, 4] 

>>> pickle. load(f) 
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"hello! 


>>> pickle.load(f) 


{'Apple', 'Pear', 'Banana'} 


>>> 











可 以 对 函数 、 类 以 及 实例 进行 pickle 处 理 ， 但 由 此 产生 的 数据 只 会 对 代码 对 象 所 关联 


的 名 称 进 行 编码 











A 例如 : 


>>> import math 


>>> import pickle. 


>>> pickle.dumps (math.cos) 
b'\x80\x03cmath\ncos\nq\x00.' 


>>> 


当 对 数据 做 反 序列 化 处 理 时 ,会 假设 所 有 所 需 的 源 文件 都 是 可 用 的 。 模 块 、 类 以 及 函 
数 会 根据 需要 自动 导入 。 对 于 需要 在 不 同 机 器 上 的 解释 融 之 间 共 享 Python 数据 的 应 用 ， 
这 会 成 为 一 个 潜在 的 维护 性 问题 ， 因 为 所 有 的 机 带 都 必须 能 够 访问 到 相同 的 源 代码 。 














AR 
=a A 

绝对 不 能 对 非 受 信任 的 数据 使 用 pickle.load()。 由 于 会 产生 副作用 ， 
pickle 会 自动 加 载 模块 并 创建 实例 。 但 是 ， 了 解 pickle 是 如 何 运作 的 骇 
客 可 以 故意 创建 出 格式 不 正确 的 数据 ， 使 得 Python 解释 器 有 机 会 去 执 
行 任意 的 系统 命令 。 因 此 ， 有 必要 将 picke 限制 为 只 在 内 部 使 用 ， 解 
释 器 和 数据 之 间 要 能 够 彼此 验证 对 方 。 

















某 些 特定 类 型 的 对 象 是 无 法 进行 pickle 操作 的 。 这 些 对 象 一 般 来 说 都 会 涉及 某 种 外 部 
系统 状态 ， 比 如 打开 的 文件 、 打 开 的 网 络 连 接 、 线 程 、 进 程 、 栈 帧 等 。 用 户 自 定义 的 








类 有 了 时候 可 以 通过 提供 ”getstate OFI setstate 0 方法 来 规避 这 些 限 制 。 如 果 定 义 了 























这 些 方法 ，pickle.dump() 就 会 调用 ”getstate ”0 来 得 到 一 个 可 以 被 pickle 处 理 的 对 象 。 
同样 地 ， 在 unpickle 的 时 候 就 会 调用 ”setstate OS. 为 了 说 明 , 下 面 这 个 类 在 内 部 定 





义 了 一 个 线程 ， 


# countdown. 
import time 




















但 是 仍然 可 以 进行 pickle/unpickle 操作 : 


Py 


import threading 


class Countdown: 


def in 


it (self, n): 


self.n=n 


self.thr = threading. Thread (target=self.run) 


self.thr.daemon = True 
self.thr.start () 
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def run(self): 
while self.n > 0: 
print ('T-minus', self.n) 
self.n -= 1 
time.sleep (5) 


def getstate (self): 
return self.n 


def _setstate_ (self, n): 
self. init (n) 


用 下 面 的 代码 试验 一 下 pickle 操作 : 


>>> import countdown 

>>> c = countdown. Countdown (30) 
>>> T-minus 30 

T-minus 29 

T-minus 28 


>>> # After a few moments 

>>> f = open('cstate.p', 'wb') 
>>> import pickle 

>>> pickle.dump(c, f) 

>>> £.close() 


现在 退出 Python ， 重 启 之 后 再 试 试 这 个 : 


>>> f = open('cstate.p', 'rb') 

>>> pickle. load(f) 

countdown.Countdown object at 0x10069e2d0> 
T-minus 19 





T-minus 18 





可 以 看 到 线程 又 魔法 般 地 重新 焕发 出 生命 了 ， 而 且 是 从 上 次 执行 pickle 操作 时 剩 下 的 
计数 开始 执行 。 

对 于 大 型 的 数据 结构 ， 比 如 由 array 模块 或 numpy 库 创 建 的 二 进 制 数组 pickle 
就 不 是 一 种 特别 高 效 的 编码 了 。 如 果 需 要 移动 大 量 的 数组 型 数据 ， 那 么 最 好 简单 
地 将 数据 按 块 保存 在 文件 中 ， 或 者 使 用 更 加 标准 的 编码 ， 比 如 HDF5 (由 第 三 
库 支 持 )。 


由 于 pickle 是 Python 的 专 有 特性 ， 而 且 同 源 代码 的 关联 紧密 ， 因 此 不 应 该 把 pickle 作 
为 长 期 存储 的 格式 。 比 如 说 ， 如 果 源 代码 发 生 改变 ， 那么 存储 的 所 有 数据 就 会 失效 且 
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变 得 无 法 读 取 。 坦 白 说 ， 要 将 数据 保存 在 数据 库 和 归档 存储 中 ， 最 好 使 用 一 种 更 加 标 
准 的 数据 编码 ， 比 如 XML. CSV 或 者 JSON。 这 些 编码 方式 的 标准 化 程度 更 高 ， 许 多 
编程 语言 都 支持 ， 而 且 更 能 适应 于 源 代 码 的 修改 。 

最 后 但 同样 重要 的 是 ,请 注意 pickle 模块 中 有 着 大 量 的 选项 和 棘手 的 阴暗 角落 。 对 于 大 部 分 
常见 的 用 途 ， 我 们 不 必 担 心 这 些 问 题 。 但 是 如 果 要 构建 一 个 大 型 的 应 用 ， 其 中 要 用 pickle 来 
做 序列 化 的 话 ， 那 么 就 应 该 好 好 参考 官方 文档 (http://docs.python.org/3/library/pickle.html )。 
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数据 编码 与 处 理 




















本 章 主 要 关注 的 重点 是 利用 Python 来 处 理 以 各 种 常见 编码 形式 所 呈现 出 的 数据 ， 比 如 
CSV 文件 、 JSON, XML 以 及 二 进 制 形 式 的 打包 记录 。 与 数据 结构 那 章 不 同 ， 本 章 不 
会 把 重点 放 在 特定 的 算法 之 上 ， 而 是 着 重 处 理 数 据 在 程序 中 的 输入 和 输出 问题 上 。 











6.1 读 写 CSV 数据 


6.1.1 问题 
我 们 想 要 读 写 CSV 文件 中 的 数据 。 


6.1.2 解决 方案 
对 于 大 部 分 类 型 的 CSV 数据 ,我们 都 可 以 用 csv 库 来 处 理 。 比 如 , 假设 在 名 为 stocks.csv 
的 文件 中 包含 有 如 下 的 股票 市 场 数据 : 


Symbol,Price,Date, Time, Change, Volume 

"BA", 39.48,"6/11/2007","9:36am", -0.18,181800 
"AIG", 71.38,"6/11/2007","9:36am", -0.15,195500 
"AXP", 62.58,"6/11/2007","9:36am", -0.46,93500 
"BA", 98.31,"6/11/2007","9:36am", +0.12,104800 
"Cc",53.08,"6/11/2007","9:36am", -0.25,360900 
"CAT", 78.29,"6/11/2007","9:36am", -0.23,225400 


下 面 的 代码 示例 告诉 我 们 如 何 将 这 些 数据 读 取 为 元 组 序列 : 


import csv 








with open('stocks.csv') as f: 
f csv = csv.reader (f) 


headers = next (f_csv) 
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for row in f_csv: 


# Process row 








在 上 面 的 代码 中 ,row 将 会 是 一 个 元 组 。 因 此 ， 要 访问 特定 的 字段 就 需要 用 到 索引 ， 比 
如 row[0] (表示 Symbol ) Fil row[4] (表示 Change )。 
由 于 这 样 的 索引 常常 容易 混淆， 因此 这 里 可 以 考虑 使 用 命名 元 组 。 示 例如 下 : 





from collections import namedtuple 
with open('stock.csv') as f: 
f csv = csv.reader (f) 
headings = next (f_csv) 
Row = namedtuple('Row', headings) 
for r in f csv: 
row = Row(*r) 


# Process row 


这 样 就 可 以 使 用 每 一 列 的 标 头 比如 row.Symbol 和 row.Change 来 取代 之 前 的 索引 了 。 应 
该 要 指出 的 是 ， 这 个 方法 只 有 在 每 一 列 的 标 头 都 是 合法 的 Python 标识 符 时 才 起 作用 。 
如 果 不 是 的 话 ， 就 必须 调整 原始 的 标 头 〈 比 如 ， 把 非 标 识 符 字 符 用 下 划 线 或 其 他 类 似 
的 符号 取代 )。 

另 一 种 可 行 的 方式 是 


import csv 
with open('stocks.csv') as f: 
























































和 数据 读 取 为 字典 序列 。 可 以 用 下 面 的 代码 实现 : 





=> 


f csv = csv.DictReader (f) 
for row in f csv: 


# process row 


在 这 个 版 本 中 ， 可 以 通过 行 标 头 来 访问 每 行 中 的 元 素 。 比 如 ，row['Symbol] 或 者 
IOw[Change']。 


BEA CSV 数据 , 也 可 以 使 用 csv 模块 来 完成 , 但 是 要 创建 一 个 写 人 人 对象。 示例 如下: 


headers = ['Symbol','Price', 'Date','Time', 'Change', 'Volume'] 

rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800), 
(‘AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500), 
("AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000), 


] 


with open('stocks.csv','w') as f: 


f csv = csv.writer (f) 
f_csv.writerow (headers) 
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f_csv.writerows (rows) 


如 果 数 据 是 字典 序列 ， 那 么 可 以 这 样 处 理 : 


'Date', 'Change', 'Volume'] 
'Price':39.48, 'Date':'6/11/2007', 
'Change':-0.18, 'Volume':181800}, 
'Price': 71.38, 'Date':'6/11/2007', 
'Change':-0.15, 'Volume': 195500}, 
'Price': 62.58, 'Date':'6/11/2007', 
'Change':-0.46, 'Volume': 935000}, 


headers = ['Symbol', 'Price', 


rows = [{'Symbol':'AA', 


'Time', 


'Time':'9:36am', 
{'Symbol':'AIG', 
'Time':'9:36am', 
{'Symbol':'AXP', 
'Time':'9:36am', 


] 


with open('stocks.csv','w') as f: 
f csv = csv.DictWriter(f, headers) 
f_csv.writeheader () 
f_csv.writerows (rows) 


6.1.3 讨论 

















应 该 总 是 选择 使 用 csv 模块 来 处 理 ， 而 不 是 自己 手动 分 解 和 解析 CSV 数据 。 比 如 ,我 





们 可 能 会 倾向 于 写 出 这 样 的 代码 : 


with open('stocks.csv') as f: 





for line in f: 
row = line.split(',') 


# process row 


这 种 方式 的 问题 在 于 仍然 需要 自己 处 理 一 些 令 人 厌烦 的 细节 问题 。 








比如 说 ， 如 果 有 任 


何 字 段 是 被 引号 括 起 来 的 ， 那 么 就 要 自己 去 除 引 号 。 此 外 ， 如 果 被 引用 的 字段 中 恰好 
包含 有 一 个 逗号 ， 那 么 产生 出 的 那 一 行 会 因为 大 小 错误 而 使 得 代码 前 溃 〈 因为 原始 数 








ra 


Tit ee IE Ss aA )。 

















默认 情况 下 ,csv 库 被 实现 为 能 够 识别 微软 Excel 所 采用 的 CSV 编码 规则 。 这 也 许 是 最 


为 常见 的 CSV 编码 规则 了 ， 能 够 带 来 最 佳 的 兼容 性 。 但 是 ， 如 果 查 阅 csv 的 文档 ， 就 
会 发 现 有 几 种 方法 可 以 将 编码 微调 为 其 他 的 格式 〈 例 如 ， 修 改 分 隔 字符 等 ) 比方 说 ， 





如 果 想 读 取 以 tab 键 分 隔 的 数据 ， 可 以 使 用 下 面 的 代码 : 


# Example of reading tab-separated values 





with open('stock.tsv') as f: 
f tsv = csv.reader(f, delimiter='\t') 
for row in f tsv: 


# Process row 
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如 果 正 在 读 取 CSV 数据 并 将 其 转换 为 命名 元 组 ， 那 么 在 验证 列 标题 时 要 小 心 。 比 如 ， 
某 个 CSV 文件 中 可 能 在 标题 行 中 包含 有 非法 的 标识 符 字 符 ， 就 像 下面 的 示例 这 样 : 


Street Address,Num-Premises, Latitude, Longitude 
5412 N CLARK, 10,41.980262,-87.668452 











得 创建 命名 元 组 的 代码 出 现 ValueError 异常 。 要 解决 这 个 问题 , 应 该 首先 整理 标 
题 。 例 如 ， 可 以 对 非法 的 标识 符 字符 进行 正则 蔡 换 ， 示 例如 下 : 
import re 
with open('stock.csv') as f: 
f csv = csv.reader (f) 
headers = [ re.sub('[*a-zA-Z ]', '_', h) for h in next(f_csv) ] 
Row = namedtuple('Row', headers) 
for r in f_csv: 


row = Row(*r) 


# Process row 





此 外 ,还 需要 重点 强调 的 是 ，csv BORA SIA A ES A TS RON RAT EB 
之 外 的 类 型 。 如 果 这 样 的 转换 很 重要 ， 那 么 这 就 是 我 们 需要 自行 处 理 的 问题 。 下 面 这 
个 例子 演示 了 对 CSV 数据 进行 额外 的 类 型 转换 : 





col_types = [str, float, str, str, float, int] 
with open('stocks.csv') as f: 

f csv = csv.reader (f) 

headers = next (f_csv) 

for row in f_csv: 


# Apply conversions to the row items 
row = tuple 





convert (value) for convert, value in zip(col_ types, row)) 





作为 另外 一 种 选择 ， 下 面 这 个 例子 演示 了 将 选中 的 字段 转换 为 字典 : 


print ('Reading as dicts with type conversion') 
field types = [ ('Price', float), 

('Change', float), 

('Volume', int) ] 


with open('stocks.csv') as f: 
for row in csv.DictReader(f): 
row.update((key, conversion (row[key]) ) 


for key, conversion in field_types) 
print (row) 





”Num-Premises 中 的 -不 能 用 作 Python 的 标识 符 字符 。 一 一 译 者 注 
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一 般 来 说 ， 对 于 这 样 的 转换 都 应 该 小 心 为 上 。 在 现实 世界 中 ，CSYV 文件 可 能 会 缺少 某 
些 值 ， 或 者 数据 损坏 了 ， 以 及 出 现 其 他 一 些 可 能 会 使 类 型 转换 操作 失败 的 情况 ， 这 都 
是 很 常见 的 。 因 此 ， 除 非 可 以 保证 数据 不 会 出 错 ， 否 则 就 需要 考虑 这 些 情况 ( 也许 需 
要 加 上 适当 的 异常 处 理 代码 )。 

最 后 ， 如 果 我 们 的 目标 是 通过 读 取 CSV 数据 来 进行 数据 分 析 和 统计 ， 那 么 应 该 看 看 
Pandas 这 个 Python 包 ( http://pandas.pydata.org )。Pandas 中 有 一 个 方便 的 函数 
pandas.read_csv()， 能 够 将 CSV 数据 加 载 到 DataFrame 对 象 中 。 之 后 ,就 可 以 生成 各 种 
各 样 的 统计 摘要 了 ， 还 可 以 对 数据 进行 筛选 并 执行 其 他 类 型 的 高 级 操作 。6.13 市 中 给 
出 了 一 个 这 样 的 例子 。 





























6.2 ix5 JSON 数据 


6.2.1 问题 
我 们 想 读 写 以 JSON (JavaScript Object Notation ) 格式 编码 的 数据 。 


6.2.2 ”解决 方案 

json 模块 中 提供 了 一 种 简单 的 方法 来 编码 和 解码 ISON 格式 的 数据 。 这 两 个 主要 的 函数 
就 是 json.dumpsO 以 及 json.loadsO0。 这 两 个 函数 在 命名 上 借鉴 了 其 他 序列 化 处 理 库 的 接 
口 ， 比 如 pickle。 下 面 的 示例 展示 了 如 何 将 Python 数据 结构 转换 为 SON: 


import json 
































data = { 
"name' : 'ACME', 
"shares' : 100, 
"price! : 542.23 
} 


json_str = json.dumps (data) 


而 接 下 来 的 示例 告诉 我 们 如 何 把 ISON 编码 的 字符 串 再 转换 回 Python 数据 结构 : 

data = json.loads(json_str) 
如 果 要 同文 件 而 不 是 字符 串 打 交道 的 话 , 可 以 选择 使 用 json.dumpO 以 及 json.load0 来 编 
码 和 解码 ISON 数据 。 示 例如 下 : 


# Writing JSON data 
with open('data.json', 'w') as f: 








json.dump (data, f) 
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# Reading data back 
with open('data.json', 'r') as f: 


data = json.load(f) 


6.2.3 讨论 
JSON 编码 支持 的 基本 类 型 有 None, bool, int, 
类 型 的 列表 、 元 组 以 及 字典 。 对 于 字典 ，JSON 会 假设 键 (key) 是 


Zw 





























任何 非 字 符 串 键 都 会 在 编码 时 转换 为 字符 串 )。 要 符合 ISON 规范 ， 
应 用 中 ， 把 最 顶层 对 象 定义 为 字典 是 一 种 标准 














列表 和 字典 进行 编码 。 此 外 ,在 Web 


做 法 。 


float 和 str， 当 然 还 


“有 包含 了 这 些 基 本 
字符 串 (字典 中 的 
应 该 只 对 Python 





JSON 编码 的 格式 几乎 与 Python 语法 一 致 ， 只 有 几 个 小 地 方 稍 有 不 同 。 比 如 ，True 会 





被 映射 为 tue，False 会 被 映射 为 false， 而 None 会 被 映射 为 null。 
人 码 看 起 来 是 怎样 的 : 


>>> json.dumps (False) 





"false! 

>>> d = {'a': True, 
'b': 'Hello', 
reny None} 


>>> Jjson.dumps (d) 
LTB Ms "Hello", 
>> 


如 果 要 检查 从 ISON 中 解码 得 到 的 数据 ,那么 仅仅 将 其 打印 出 来 就 想 


tom null, "a": true}' 


























下 面 的 示例 展示 了 编 




















有 确定 数据 的 结构 通 


常 是 比较 困难 其 是 如 果 数 据 中 包含 了 深层 次 的 舱 套 结构 或 者 有 许多 字段 时 。 
为 了 帮助 解决 这 个 问题 ， 考 虑 使 用 pprint 模块 中 的 pprint0 函 数 。 这 么 做 会 把 键 按照 字 





母 顺序 排列 ， 并 且 将 字典 以 更 加 合理 的 方式 进行 输出 。 下 面 的 示例 展示 了 应 该 如 何 对 











Twitter 上 的 搜索 结果 以 漂亮 的 格式 进行 输出 : 


from urllib.request import urlopen 
import json 


resp = json.loads(u.read() .decode ('utf-8')) 

from pprint import pprint 

pprint (resp) 

{'completed_in': 0.074, 

264043230692245504, 

"264043230692245504', 
"2page=2&max_id=264043230692245504&q=pythonérpp=5', 


"max_id': 
'max id str': 
"next_page!: 
"page': 1, 
"query': 'python', 

"refresh_url': '?since_id=264043230692245504&q=python', 


u = urlopen('http://search.twitter.com/search. json?q=pythonérpp=5') 
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"results': [{'created_at': 'Thu, 01 Nov 2012 16:36:26 +0000', 
"from_user': ... 
b 
{'created_at': 'Thu, 01 Nov 2012 16:36:14 +0000', 
"from_user': ... 
}, 
{'created_at': 'Thu, 0 ov 2012 16:36:13 +0000', 
"from_user': ... 
b 
{'created_at': 'Thu, 0 ov 2012 16:36:07 +0000', 
"from_user': ... 
} 
{'created_at': 'Thu, 0 ov 2012 16:36:04 +0000', 
"from_user': su 


i, 
"results_per_page': 5, 
"since id': 0, 
"since id str': '0'} 

>>> 


一 般 来 说 ,JSON 解码 时 会 从 所 提供 的 数据 中 创建 出 字典 或 者 列表 。 如 果 想 创建 其 他 类 
型 的 对 象 , 可 以 为 json.loads() 方 法 提供 object_pairs hook 或 者 object_ hook 参数 。 例 如， 
下 面 的 示例 展示 了 我 们 应 该 如 何 将 ISON 数据 解码 为 OrderedDict 有 序 字典 ), 这 样 可 
以 保持 数据 的 顺序 不 变 : 


>>> s = '{"name": "ACME", "shares": 50, "price": 490.1}' 

>>> from collections import OrderedDict 

>>> data = json.loads(s, object_pairs_hook=OrderedDict) 

>>> data 

OrderedDict ([('name', 'ACME'), ('shares', 50), ('price', 490.1) ] 
>>> 


而 下 面 的 代码 将 ISON 字典 转变 为 Python WE: 


>>> class JSONObject: 
def init (self, d): 
self. dict  =d 


>>> 

>>> data = json.loads(s, object_hook=JSONObject) 
>>> data.name 

"ACME! 

>>> data.shares 

50 


>>> data.price 
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490.1 
>>> 


在 上 一 个 示例 中 ,通过 解码 ISON 数据 而 创建 的 字典 作为 单独 的 参数 传递 给 了 
_init_0。 之 后 就 可 以 自由 地 根据 需要 来 使 用 它 了 ， 比 如 直接 将 它 当 做 对 象 的 字典 实 
例 来 用 。 
有 几 个 选项 对 于 编码 ISON 来 说 是 很 有 用 的 。 如 果 想 让 输出 格式 变 得 漂亮 一 些 , 可 以 在 
json.dumpsO 函 数 中 使 用 indent 参数 。 这 会 使 得 数据 能 够 像 pprintO0 函 数 那样 以 漂亮 的 格 
式 打印 出 来 。 示 例如 下 : 

>>> print (json.dumps (data) ) 

{"price": 542.23, "name": "ACME", "Shares": 100} 


>>> print (json.dumps (data, indent=4) ) 


{ 
































"price": 542.23, 
"name": "ACME", 
"shares": 100 


} 


>>> 


如 果 想 在 输出 中 对 键 进行 排序 处 理 ， 可 以 使 用 sort_keys 参数 : 


>>> print (json.dumps (data, sort keys=True)) 
{"name": "ACME", "price": 542.23, "shares": 100} 
>>> 


类 实例 一 般 是 无 法 序列 化 为 JSON 的 。 比 如 说 : 


>>> class Point: 





def init (self, x, y): 
self.x =x 
self.y =y 


>>> p = Point (2, 3) 
>>> Jjson.dumps (p) 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 


H 


File "/usr/local/lib/python3.3/json/_init .py", line 226, in dumps 
return default encoder.encode (obj) 


H 


File "/usr/local/lib/python3.3/json/encoder.py", line 187, in encode 
chunks = self.iterencode(o, _one_shot=True) 
ile "/usr/local/lib/python3.3/json/encoder.py", line 245, in iterencode 


return iterencode(o, 0) 




















ile "/usr/local/lib/python3.3/json/encoder.py", line 169, in default 





raise TypeError (repr(o) + " is not JSON serializable") 
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TypeError: <_main_.Point object at 0x1006f2650> is not JSON serializable 
>>> 








如 果 想 序列 化 类 实例 ， 可 以 提供 一 个 函数 将 类 实例 作为 输入 并 返回 一 个 可 以 被 序列 化 
处 理 的 字典 。 示 例如 下 : 


def serialize instance (obj): 





d= { '_classname_' : type(obj). name } 
d.update (vars (obj) ) 


return d 


如 果 想 取 回 一 个 实例 ， 可 以 编写 这 样 的 代码 来 处 理 : 


# Dictionary mapping names to known classes 




















classes = { 


'Point' : Point 


def unserialize_object (d) : 
clsname = d.pop('_classname_', None) 


if clsname: 


I 


cls = classes[clsname] 
obj = cls. new (cls) # Make instance without calling _init_ 
for key, value in d.items(): 
setattr(obj, key, value) 
return obj 
else: 


return d 


最 后 给 出 如 何 使 用 这 些 函 数 的 示例 : 


>>> p = Point (2,3) 





>>> s = json.dumps(p, default=serialize instance) 
>>> s 

vpn classname_": "Point", "y": 3, "x": 2}' 

>>> a = json.loads(s, object_hook=unserialize_ object) 
>>> a 

<_main_.Point object at 0x1017577d0> 

>>> a.x 

2 

>>> a.y 

3 

>>> 


json 模块 中 还 有 许多 其 他 的 选项 ， 这 些 选项 可 用 来 控制 对 数字 、 特 殊 值 ( 比如 NaN ) 
等 的 底层 解释 行为 。 请 参阅 文档 ( http://docs.python.org/3/library/json.html ) 以 获得 进 一 
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步 的 细节 。 


6.3 解析 简单 的 XML 文档 


6.3.1 问题 
我 们 想 从 一 个 简单 的 XML 文档 中 提取 出 数据 。 


6.3.2 ”解决 方案 

xml.etree.ElementTree 模块 可 用 来 从 简单 的 XML 文档 中 提取 出 数据 。 为 了 说 明 ， 假设 
想 对 Planet Python ( http://planet.python.org ) 上 的 RSS 订阅 做 解析 并 生成 一 个 总 结 报告 。 
下 面 的 脚本 可 以 完成 这 个 任务 : 


from urllib.request import urlopen 





from xml.etree.ElementTree import parse 


# Download the RSS feed and parse it 
u = urlopen('http://planet.python.org/rss20.xml') 


doc = parse (u) 


# Extract and output tags of interest 
for item in doc.iterfind('channel/item'): 
title = item. findtext ('title') 
date = item.findtext ('pubDate') 
link = item. findtext ('link") 


print (title) 
print (date) 
print (link) 
( 


print () 


如 果 运 行 上 面 的 脚本 ， 会 得 到 类 似 这 样 的 输 和 


Steve Holden: Python for Data Analysis 
Mon, 19 Nov 2012 02:13:51 +0000 
http://holdenweb.blogspot.com/2012/11/python-for-data-analysis. html 


Vasudev Ram: The Python Data model (for v2 and v3) 
Sun, 18 Nov 2012 22:06:47 +0000 
http://jugad2. blogspot .com/2012/11/the-python-data-model. html 


Python Diary: Been playing around with Object Databases 
Sun, 18 Nov 2012 20:40:29 +0000 
http://www. pythondiary.com/blog/Nov.18,2012/been-...-object-databases. html 
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Vasudev Ram: Wakari, Scientific Python in the cloud 
Sun, 18 Nov 2012 20:19:41 +0000 
http://jugad2. blogspot .com/2012/11/wakari-scientific-python-in-cloud.html 


Jesse Jiryu Davis: Toro: synchronization primitives for Tornado coroutines 
Sun, 18 Nov 2012 20:17:49 +0000 
http: //feedproxy.google.com/~r/EmptysquarePython/~3/_DOZT2Kd0hQ/ 


显然 ， 如 果 想 做 更 多 的 处 理 ， 就 需要 将 print() KAMA FL th BS OTe Ay cb FPR 


6.3.3 讨论 

在 许多 应 用 中 ， 同 XML 编码 的 数据 打交道 是 很 常见 的 事情 。 这 不 仅 是 因为 XML 作为 
一 种 数据 交换 格式 在 互联 网 中 使 用 广泛 ， 而 且 XML 还 是 用 来 保存 应 用 程序 数据 ( 例如 文 
字 处 理 、 音 乐 库 等 ) 的 常用 格式 。 本 节 后 面 的 讨论 假设 读者 已 经 熟悉 XML 的 基本 概念 。 
在 许多 情况 下 , XML 如 果 只 是 简单 地 用 来 保存 数据 , 那么 文档 结构 就 是 紧凑 而 直接 的 。 
例如 ， 上 面 示例 中 的 RSS 订阅 源 看 起 来 类 似 于 如 下 的 XML 文档 : 


<?xml version="1.0"?> 



























































<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/"> 
<channel> 
<title>Planet Python</title> 
<link>http://planet.python.org/</link> 
<language>en</language> 
<description>Planet Python - http://planet.python.org/</description> 
<item> 
<title>Steve Holden: Python for Data Analysis</title> 
<guid>http://holdenweb.blogspot.com/...-data-analysis.html</guid> 
<link>http://holdenweb.blogspot.com/...-data-analysis.html</link> 
<description>...</description> 
<pubDate>Mon, 19 Nov 2012 02:13:51 +0000</pubDate> 
</item> 
<item> 
<title>Vasudev Ram: The Python Data model (for v2 and v3)</title> 
<guid>http://jugad2.blogspot.com/...-data-model.html</guid> 
<link>http://jugad2.blogspot.com/...-data-model.html</link> 
<description>...</description> 
<pubDate>Sun, 18 Nov 2012 22:06:47 +0000</pubDate> 
</item> 
<item> 
<title>Python Diary: Been playing around with Object Databases</title> 
<guid>http://www.pythondiary.com/...-object-databases.html</guid> 
<link>http://www.pythondiary.com/...-object-databases.html</link> 
<description>...</description> 
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<pubDate>Sun, 18 Nov 2012 20:40:29 +0000</pubDate> 


</item> 
anhely 
</rss> 
xml.etree.ElementTree.parse() 函 数 将 整个 XML 文档 解析 为 一 个 文档 对 象 ,之 后 ,就 可 以 
利用 findO、iterfindO 〇 以 及 findtext() 方 法 查询 特定 的 XML 元 素 。 这 些 函 数 的 参数 就 是 特 
定 的 标签 名 称 ， 比 如 channel/item 或 者 title。 


当 指定 标签 时 ， 需 要 整体 考虑 文档 的 结构 。 每 一 个 查找 操作 都 是 相对 于 一 个 起 始 元 素 
来 展开 的 。 同 样 地 ， 提 供给 每 个 操作 的 标签 名 也 是 相对 于 起 始 元 素 的 。 在 示例 代码 中 ， 
对 doc.iterfind('channel/item') 的 调用 会 查找 所 有 在 “channel” 元 素 之 下 的 “item” 元 素 。 
doc 代表 着 文档 的 顶层 ( 顶层 “rss” 元 素 )。 之 后 对 item.findtextO 的 调用 就 相对 于 已 找 
到 的 “item” 元 素来 展开 。 


每 个 由 BlementTree 模块 所 表示 的 元 素 都 有 一 些 重要 的 属性 和 方法 ,它们 对 解析 操作 十 
分 有 用 。tag 属性 中 包含 了 标签 的 名 称 ，text 属性 中 包含 有 附着 的 文本 ， 而 get0) 方 法 可 
以 用 来 提取 出 属性 ( 如 果 有 的 话 )。 示 例如 下 : 


>>> doc 

<xml.etree.ElementTree.ElementTree object at 0x101339510> 
>>> e = doc.find('channel/title') 

>>> e 

<Element 'title' at 0x10135b310> 

>>> e.tag 

"title! 

>>> e.text 

"Planet Python' 

>>> e.get ('some_attribute') 













































































>>> 





应 该 要 指出 的 是 xml.etree.ElementTree 并 不 是 解析 XML 的 唯一 选择 。 对 于 更 加 高 级 的 
应 用 , 应 该 考虑 使 用 lxml。lxml 采用 的 编程 接口 和 ElementTree 一 样 ， 因 此 本 节 中 展示 
的 示例 能 够 以 同样 的 方式 用 lxml 实现 。 只 需要 将 第 一 个 导入 语句 修改 为 fom lxml.etree 
import parse 即 可 。Jxml 完全 兼容 于 XML 标准 , 这 为 我 们 提供 了 极 大 的 好 处 。 此 外 , lxml 
运行 起 来 非常 快速 ， 还 提供 验证 、XSLT 以 及 XPath 这 样 的 功能 支持 。 




















6.4 以 增 量 方式 解析 大 型 XML 文件 


6.4.1 问题 
我 们 需要 从 一 个 大 型 的 XML 文档 中 提取 出 数据 ， 而 且 对 内 存 的 使 用 要 尽 可 能 少 。 
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6.4.2 


解决 方案 





任何 时 候 ， 当 要 面 对 以 增 量 方式 处 理 数据 的 问题 时 ,都 应 该 考虑 使 用 迭代 器 和 生成 右 。 











下 面 是 一 个 简单 的 函数 , 可 用 来 以 增 量 方 式 处 理 大 型 的 XML 文件 , 它 只 用 到 了 很 少量 


的 内 存 





from xml.etree.ElementTree import iterparse 


def 


parse_and_remove (filename, path): 
path_parts = path.split('/') 

doc = iterparse (filename, ('start', 'end')) 
# Skip the root element 

next (doc) 


tag_stack = [] 
elem stack = [] 
for event, elem in doc: 
if event == 'start': 
tag_stack.append(elem.tag) 
elem_stack. append (elem) 
elif event == 'end': 
if tag_stack == path parts: 
yield elem 
elem stack[-2] .remove (elem) 
try: 
tag_stack.pop() 
elem_stack.pop () 
except IndexError: 
pass 





要 测试 这 个 函数 ， 只 需要 找 一 个 大 型 的 XML 文件 来 配合 测试 即 可 。 这 种 大 型 的 XML 
文件 常常 可 以 在 政府 以 及 数据 公开 的 网 站 上 找到 。 比 如 ， 可 以 下 载 芝加哥 的 坑 洞 数据 
E XML。 在 写作 本 书 时 ， 这 个 下 载 文件 中 有 超过 100000 行 的 数据 ， 它 们 按照 如 下 的 
方式 编码 : 


<response> 


<row> 


<row ...> 
<creation_date>2012-11-18T00:00:00</creation_date> 
<status>Completed</status> 
<completion_date>2012-11-18T00:00:00</completion_date> 
<service_request_number>12-01906549</service_request_number> 
<type_of_service_request>Pot Hole in Street</type_of_service_request> 
<current_activity>Final Outcome</current_activity> 
<most_recent_action>CDOT Street Cut ... Outcome</most_recent_action> 
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<street_address>4714 S TALMAN AVE</street_address> 
<zip>60632</zip> 
<x_coordinate>1159494.68618856</x coordinate> 
<y_coordinate>1873313.83503384</y_coordinate> 
<ward>14</ward> 
<police_district>9</police_district> 
<community_area>58</community_area> 
<latitude>41.808090232127896</latitude> 
<longitude>-87.69053684711305</longitude> 
<location latitude="41.808090232127896" 
longitude="-87.69053684711305" /> 

</row> 

<rOW ...> 
<creation_date>2012-11-18T00:00:00</creation_date> 
<status>Completed</status> 
<completion_date>2012-11-18T00:00:00</completion_date> 
<service_request_number>12-01906695</service_request_number> 
<type_of_service_request>Pot Hole in Street</type_of_service_request> 
<current_activity>Final Outcome</current_activity> 


<most_recent_action>CDOT Street Cut ... Outcome</most_recent_action> 
<street_address>3510 W NORTH AVE</street_address> 
<zip>60647</zip> 


<x_coordinate>1152732.14127696</x_coordinate> 
<y_coordinate>1910409.38979075</y_coordinate> 
<ward>26</ward> 
<police_district>14</police district> 
<community_area>23</community_area> 
<latitude>41.91002084292946</latitude> 
<longitude>-87.71435952353961</longitude> 
<location latitude="41.91002084292946" 
longitude="-87.71435952353961" /> 
</row> 
</row> 


</response> 


假设 我 们 想 编写 一 个 脚本 来 根据 坑 洞 的 数量 对 邮政 编码 ( ZIP code ) 进行 排序 。 可 以 纺 
写 如 下 的 代码 来 实现 : 


from xml.etree.ElementTree import parse 





















































from collections import Counter 


potholes by zip = Counter () 


doc = parse('potholes.xml') 
for pothole in doc.iterfind('row/row'): 


potholes by zip[pothole.findtext ('zip')] += 1 
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for zipcode, num in potholes by zip.most_common(): 
print (zipcode, num) 


这 个 脚本 存在 的 唯一 问题 就 是 它 将 整个 XML 文件 都 读 取 到 内 存 中 后 再 做 解析 。 在 我 们 
的 机 器 上 ,运行 这 个 脚本 需要 占据 450 MB 内 存 。 但 是 如 果 使 用 下 面 这 份 代码 , 程序 只 
做 了 微小 的 修改 : 


from collections import Counter 


















































potholes_by zip = Counter () 


data = parse_and_remove('potholes.xml', 'row/row') 
for pothole in data: 
potholes by zip[pothole.findtext('zip')] += 1 


for zipcode, num in potholes by zip.most common(): 
print (zipcode, num) 


这 个 版 本 的 代码 运行 起 来 只 用 了 7 MB 内 存 一 一 多 么 惊人 的 提升 啊 ! 


6.4.3 讨论 
本 节 中 的 示例 依赖 于 ElementTree 模块 中 的 两 个 核心 功能 。 首先 , iterparse0 方 法 允许 我 
们 对 XML 文档 做 增 量 式 的 处 理 。 要 使 用 它 ， 只 需 提 供 文件 名 以 及 一 个 事件 列表 即 可 。 
事件 列表 由 1 个 或 多 个 start/end, start-ns/end-ns 组 成 。iterparse0 创 建 出 的 迭代 器 产生 
出 形式 为 (event，elem ) 的 元 组 ， 这 里 的 event 是 列 出 的 事件 ， 而 elem 是 对 应 的 XML 
元 素 。 示 例如 下 : 


>>> data = iterparse('potholes.xml', ('start','end')) 









































>>> next (data) 

('start', <Element 'response' at 0x100771d60>) 
>>> next (data) 
('start', <Element 'row' at 0x100771e68>) 
>>> next (data) 
('start', <Element 'row' at 0x100771fc8>) 
>>> next (data) 
('start', <Element 'creation date' at 0x100771f£18>) 
>>> next (data) 

('end', <Element ‘creation date' at 0x100771£18>) 
>>> next (data) 

('start', <Element 'status' at 0x1006a7f£18>) 

>>> next (data) 

('end', <Element 'status' at 0x1006a7f18>) 

>>> 




















当 某 个 元 素 首次 被 创建 但 是 还 没有 填 人 任何 其 他 数据 时 〈 比如 子 元 素 )， 会 产生 start 
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件 , 而 end 事件 会 在 元 素 已 经 完成 时 产生 .尽管 没有 在 本 节 示 例 中 出 现 ,startrns 和 end-ns 
件 是 用 来 处 理 XML 命名 空间 声明 的 。 


在 这 个 示例 中 , start 和 end 事件 是 用 来 管理 元 素 和 标签 栈 的 。 这 里 的 栈 代表 着 文档 结构 
中 被 解析 的 当前 层次 (current hierarchical )， 同 时 也 用 来 判断 元 素 是 否 匹 配 传递 给 
parse_and_remove0 函 数 的 请 求 路 径 。 如 果 有 匹配 满足 , 就 通过 yield 将 其 发 送 给 调用 者 。 


紧 跟 在 yield 之 后 的 语句 就 是 使 得 ElementTree 能 够 高 效 利 用 内 存 的 关键 所 在 : 


elem stack [-2] .remove (elem) 


这 一 行 代 码 使 得 之 前 通过 yield 产生 出 的 元 素 从 它们 的 父 节 点 中 移 除 。 因 此 可 假设 其 再 
也 没有 任何 其 他 的 引用 存在 ， 因 此 该 元 素 被 销毁 进而 可 以 回收 它 所 占用 的 内 存 。 

这 种 迭代 式 的 解析 以 及 对 节点 的 移 除 使 得 对 整个 文档 的 增 量 式 扫描 变 得 非常 高 效 。 在 
任何 时 刻 都 能 构造 出 一 棵 完整 的 文档 树 。 然 而 ， 我 们 仍然 可 以 编写 代码 以 直接 的 方式 
来 处 理 XML 数据 。 

这 种 技术 的 主要 缺点 就 是 运行 时 的 性 能 。 当 进行 测试 时 ， 将 整个 文档 先 读 入 内 存 的 版 
本 运行 起 来 大 约 比 增 量 式 处 理 的 版 本 快 2 倍 。 但 是 在 内 存 的 使 用 上 ， 先 读 入 内 存 的 版 
本 占用 的 内 存量 是 增 量 式 处 理 的 60 售 和 多。 因此， 如 果 内 存 使 用 量 是 更 加 需要 关注 的 因 
素 ， 那 么 显然 增 量 式 处 理 的 版 本 才 是 大 赢家 。 


diig. dint 
a por 



























































6.5 ”将 字典 转换 为 XML 


6.5.1 问题 
我 们 想 将 Python 字典 中 的 数据 转换 为 XML。 


6.5.2 ”解决 方案 


尽管 xml.etree.ElementTree 库 通 常用 来 解析 XML 文档 ,但 它 同样 也 可 以 用 来 创建 XML 
SOR. PRN, RP aX Tew: 


from xml.etree.ElementTree import Element 











def dict_to_xml(tag, d): 


meer 


Turn a simple dict of key/value pairs into XML 
rri 
elem = Element (tag) 
for key, val in d.items(): 
child = Element (key) 
child.text = str(val) 
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elem. append (child) 
return elem 


下 面 是 使 用 这 个 函数 的 示例 : 


>>> s = { 'name': 'GOOG', 'shares': 100, 'price':490.1 } 








>>> e = dict_to_xml('stock', s) 
>>> e 

<Element 'stock' at 0x1004b64c8> 
>>> 


转换 的 结果 是 一 个 Element 实例 。 对 于 VO 操作 来 说 ， 可 以 利用 xml.etree.ElementTree 
中 的 tostringO 函 数 将 其 转换 为 字 节 串 。 示 例如 下 : 


>>> from xml.etree.ElementTree import tostring 





>>> tostring(e) 
b'<stock><price>490.1</price><shares>100</shares><name>GOOG</name></stock>' 
>>> 








如 果 想 为 元 素 附 加 上 属性 ， 可 以 使 用 set() 方 法 实现 : 


>>> e.set(' id','1234') 


>>> tostring(e) 





b'<stock _id="1234"><price>490.1</price><shares>100</shares><name>GOOG</name> 
</stock>! 
>>> 








如 果 需 要 考虑 元 素 间 的 顺序 ， 可 以 创建 OrderedDict ( 有 序 字典 ) 来 取代 普通 的 字典 。 
参见 1.7 节 中 对 有 序 字典 的 介绍 。 


6.5.3 ”讨论 
当 创建 XML 时 ， 也 许 会 倾向 于 只 使 用 字符 串 来 完成 。 比 如 : 


def dict_to_xml_str(tag, d): 


ver 


Turn a simple dict of key/value pairs into XML 

parts = ['<{}>'. format (tag) ] 

for key, val in d.items(): 
parts.append('<{0}>{1}</{0}>'. format (key, val) 

parts.append('</{}>'. format (tag) ) 


return ''.join(parts) 


问题 在 于 如 果 尝 试 手工 处 理 的 话 ， 那 么 这 就 是 在 自 找 抹 烦 。 比 如 ， 如 果 字 典 中 包含 有 
特殊 字符 时 会 发 生 什 么 ? 
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>>> d = { 'name' : '<spam>' } 


>>> # String creation 
>>> dict_to_xml_str('item',d) 


'<item><name><spam></name></item>' 


>>> # Proper XML creation 

>>> e = dict_to_xml('item',d) 

>>> tostring(e) 

b'<item><name>é1t; spam&gt;</name></item>' 
>>> 


请 注意 在 上 面 这 个 示例 中 ,字符 < 和 > 分 别 被 &lt6 和 人 gb 取代 了 。 


下 面 的 提示 仅 供 参考 。 如 果 需 要 手工 对 这 些 字符 做 转 义 处 理 , 可 以 使 用 xml.sax.saxutils 
中 的 escapeO0 和 unescape()PA AL. ANPING F : 





>>> from xml.sax.saxutils import escape, unescape 
>>> escape ('<spam>') 

"glt;spam&gt;' 

>>> unescape (_) 

"<spam>' 

>>> 


为 什么 说 创建 Element 实例 要 比 使 用 字符 串 好 ? 除了 可 以 产生 出 正确 的 输出 外 ,其 他 的 
原因 在 于 这 样 可 以 更 加 方便 地 将 Element 实例 组 合 在 一 起 ,创建 出 更 大 的 XML 文档 。 
得 到 的 Element 实例 也 能 够 以 各 种 方式 进行 处 理 , 完全 不 必 担 心 解析 XML 文本 方面 的 
问题 。 最 重要 的 是 ， 我 们 能 够 站 在 更 高 的 层面 上 对 数据 进行 各 种 处 理 ， 只 在 最 后 把 结 
果 作为 字符 串 输出 即 可 。 


























6.6 ” 解析、 修改 和 重 写 XML 


6.6.1 问题 
我 们 想 读 取 一 个 XML 文档 ， 对 它 做 些 修改 后 再 以 XML 的 方式 写 回 。 
6.6.2 解决 方案 


xml.etree ElementTree 模块 可 以 轻松 完成 这 样 的 任务 。 从 本 质 上 来 说 , 开始 时 可 以 按照 通常 
的 方式 来 解析 文档 。 例 如 ， 假 设 有 一 个 名 为 pred.xml 的 文档 ， 它 看 起 来 是 这 样 的 : 


<?xml version="1.0"?> 








<stop> 
<id>14791</id> 
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<nm>Clark &amp; Balmoral</nm> 

<sri> 
<rt>22</rt> 
<d>North Bound</d> 
<dd>North Bound</dd> 

</sri> 

<er>22</cr> 

<pre> 
<pt>5 MIN</pt> 
<fd>Howard</fd> 
<v>1378</v> 
<rn>22</rn> 

</pre> 

<pre> 
<pt>15 MIN</pt> 
<fd>Howard</fd> 
<v>1867</v> 
<rn>22</rn> 

</pre> 


</stop> 


下 面 的 示例 采用 ElementTree 来 读 取 这 个 文档 ， 并 对 文档 的 结构 作出 修改 : 


>>> 


>>> 


>>> 


>>> 


from xml.etree.ElementTree import parse, Element 
doc = parse('pred.xml') 

root = doc.getroot () 

root 


<Element 'stop' at 0x100770cb0> 


>>> 


这 些 操 


# Remove a few elements 
root.remove (root.find('sri')) 


root.remove (root.find('cr')) 


# Insert a new element after <nm>...</nm> 
root.getchildren() .index(root.find('nm') ) 


e = Element ('spam') 
e.text = 'This is a test' 
root.insert (2, e) 


# Write back to a file 
doc.write('newpred.xml', xml_declaration=True) 

















作 的 结果 产生 了 一 个 新 的 XML 文档 ， 看 起 来 是 这 样 的 : 





<?xml version='1.0' encoding='us-ascii'?> 


<stop> 
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<id>14791</id> 

<nm>Clark &amp; Balmoral</nm> 

<spam>This is a test</spam><pre> 
<pt>5 MIN</pt> 
<fd>Howard</fd> 
<v>1378</v> 
<rn>22</rn> 

</pre> 

<pre> 
<pt>15 MIN</pt> 
<fd>Howard</fd> 
<v>1867</v> 
<rn>22</rn> 

</pre> 

</stop> 


6.6.3 讨论 




















修改 XML 文档 的 结构 是 简单 直接 的 ,但 是 必须 记 住 所 有 的 修改 主要 是 对 父 元 素 进行 





的 ， 我 们 把 它 当 做 是 一 个 列表 一 样 对 待 。 比 如 说 ， 如 果 移 除 某 个 元 素 ， 那 么 就 利 月 





HE 


的 直接 父 节点 的 remove() 方 法 完成 。 如 果 搬 人 或 添加 新 的 元 素 ， 同 样 要 使 用 父 节点 的 




















insert() 和 append() 方 法 来 完成 。 这 些 元 素 也 可 以 使 用 索引 和 切片 操作 来 进行 操控 , 上 


element[i] 或 者 是 element[i:j]。 


如 果 需 要 创建 新 的 元 素 , 可 以 使 用 Element 类 来 完成 , 我 们 本 节 给 出 的 示例 中 已 经 这 





做 了 。 这 在 6.5 PA EE Ab FI 


6.7 ”用 命名 空间 来 解析 XML 文档 


6.7.1 问题 
我 们 要 解析 一 个 XML 文档 ， 但 是 需要 使 用 XML 命名 空间 来 完成 。 


6.7.2 解决 方案 
考虑 使 用 了 命名 空间 的 如 下 XML 文档 : 


<?xml version="1.0" encoding="utf-8"?> 
<top> 
<author>David Beazley</author> 


























<content> 
<html xmlns="http://www.w3.org/1999/xhtml"> 
<head> 
<title>Hello World</title> 


如 


么 
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</head> 
<body> 
<hl>Hello World!</h1> 
</body> 
</html> 
</content> 
</top> 











如 果 解 析 这 个 文档 并 尝试 执行 普通 的 查询 操作 ， 就 会 发 现 没 那么 




















的 东西 都 变 得 特别 元 长 哆 哄 : 


>>> # Some queries that work 

>>> doc.findtext ('author') 

"David Beazley' 

>>> doc. find('content') 

<Element 'content' at 0x100776ec0> 


>>> # A query involving a namespace (doesn't work) 
>>> doc. find('content/html') 


>>> # Works if fully qualified 
>>> doc. find('content/{http://www.w3.org/1999/xhtml}html') 
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0 


>>> # Doesn't work 
>>> doc. findtext ('content/{http://www.w3.org/1999/xhtml}htm 


>>> # Fully qualified 

>>> doc. findtext ('content/{http://www.w3.org/1999/xhtml}htm 
"{http://www.w3.org/1999/xhtml }head/{http://www.w3.org/ 

"Hello World' 

>>> 





> 


/nead/title') 


/ 
999/xhtml}title') 





通常 可 以 将 命名 空间 的 处 理 包 装 到 一 个 通用 的 类 中 ， 这 样 可 以 省 去 一 些 麻 烦 : 


class XMLNamespaces: 

def init__(self, **kwargs): 
self.namespaces = {} 
for name, uri in kwargs.items(): 

self.register(name, uri) 

def register(self, name, uri): 
self.namespaces[name] = '{'+uri+'}' 

def call (self, path): 
return path. format_map(self.namespaces) 


要 使 用 这 个 类 ， 可 以 按照 下 面 的 方式 进 


容易 实现 ， 因 为 所 有 
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>>> ns = XMLNamespaces (html='http://www.w3.org/1999/xhtml') 

>>> doc.find(ns('content/{html}html') ) 

<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0> 
>>> doc.findtext (ns('content/{html}html1/{html}head/{html}title')) 
"Hello World! 

>>> 


6.7.3 讨论 

对 包含 有 命名 空间 的 XML 文档 进行 解析 会 非常 繁琐。XMLNamespaces 类 的 功能 只 是 
用 来 稍微 简化 一 下 这 个 过 程 ， 它 允许 在 后 序 的 操作 中 使 用 缩短 的 命名 空间 名 称 ， 而 不 
必 去 使 用 完全 限定 的 URI。 
FEWE, 在 基本 的 ElementTree 解析 器 中 不 存在 什么 机 制 能 获得 有 关 命名 空间 的 进 一 
步 信 息 。 但 是 如 果 愿 意 使 用 iterparse0 函 数 的 话 ， 还 是 可 以 获得 一 些 有 关 正 在 处 理 的 命 
名 空间 范围 的 信息 。 示 例如 下 : 


>>> from xml.etree.ElementTree import iterparse 
























































>>> for evt, elem in iterparse('ns2.xml', ('end', 'start-ns', 'end-ns')): 
print (evt, elem) 


end <Element 'author' at 0x10110de10> 
start-ns ('', 'http://www.w3.org/1999/xhtml') 
end <Element '{http://www.w3.org/1999/xhtml}title' at 0x1011131b0> 
end <Element '{http://www.w3.org/1999/xhtml}head' at 0x1011130a8> 
end <Element '{http://www.w3.org/1999/xhtml}h1l' at 0x101113310> 
end <Element '{http://www.w3.org/1999/xhtml}body' at 0x101113260> 
end <Element '{http://www.w3.org/1999/xhtml}html' at 0x10110df£70> 
end <Element 'content' at 0x10110de68> 

end <Element 'top' at 0x10110dd60> 

>>> elem # This is the topmost element 

<Element 'top' at 0x10110dd60> 

>>> 


后 要 提 到 的 是 ， 如 果 正 在 解析 的 文本 用 到 了 除 命 名 空间 之 外 的 其 他 高 级 XML 特性 ， 
TAME ERII Ixml 库 。 比 方 说 ，lxml 对 文档 的 DTD 验证 、 更 加 完整 的 XPath 支 
持 和 其 他 的 高 级 XML 特性 提供 了 更 好 的 支持 。 本 节 提 到 的 技术 只 是 为 解析 操作 做 了 一 
点 修改 ， 使 得 这 个 过 程 能 够 稍微 简单 一 些 








end-ns None 

















6.8 同 关 系 型 数据 库 进 行 交 互 


6.8.1 问题 
我 们 需要 选择 、 插 入 或 者 删除 关系 型 数据 库 中 的 行 数据 。 
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6.8.2 解决 方案 
在 Python 中 ， 表 达 行 数据 的 标准 方式 是 采用 元 组 序列 。 例 如 : 


stocks = [ 
('GooG', 100, 490.1), 
('AAPL', 50, 545.75), 
('FB', 150, 7.45), 
(CHPO 1557 33'.2)%, 





] 


当 数据 以 这 种 形式 呈现 时 ， 通 过 Python 标准 的 数据 库 API ( 在 PEP 249 中 描述 ) 来 同 
关系 型 数据 库 进行 交互 相对 来 说 就 显得 很 直接 了 。 该 API 的 要 点 就 是 数据 库 上 的 所 有 
操作 都 通过 SQL 查询 来 实现 。 每 一 行 输入 或 输出 数据 都 由 一 个 元 组 来 表示 。 
为 了 说 明 ， 我 们 可 以 使 用 Python 自 带 的 sqlite3 模块 。 如 果 正 在 使 用 一 个 不 同 的 数据 库 
( 如 MySQL、Postgres 或 者 ODBC )， 就 需要 安装 一 个 第 三 方 的 模块 来 支持 。 但 是 ， 底 
层 的 编程 接口 即使 不 完全 相同 的 话 也 几乎 是 一 致 的 。 

第 一 步 是 连接 数据 库 。 一 般 来 说 ， 要 调用 一 个 connect0) 函 数 ， 提 供 类 似 数据 库 名 称 、 
主机 名 、 用 户 名 、 密 码 这 样 的 参数 以 及 一 些 其 他 需要 的 细节 。 示 例如 下 : 


>>> import sqlite3 







































































>>> db = sqlite3.connect ('database.db') 
>>> 


要 操作 数据 的 话 ， 下 一 步 就 要 创建 一 个 游标 (cursor )。 一 旦 有 了 游标 ， 就 可 以 开始 执 
行 SQL 查询 了 。 示 例如 下 : 


>>> c = db.cursor() 

>>> c.execute('create table portfolio (symbol text, shares integer, price real)') 
<sqlite3.Cursor object at 0x10067a730> 

>>> db.commit () 


>>> 


要 在 数据 中 插入 行 序列 ， 可 以 采用 这 样 的 语句 : 


>>> c.executemany('insert into portfolio values (?,?,?)', stocks) 
<sqlite3.Cursor object at 0x10067a730> 


>>> db.commit () 





>>> 


要 执行 查询 操作 ， 可 以 使 用 下 面 这 样 的 语句 : 


>>> for row in db.execute('select * from portfolio'): 
print (row) 
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GooG', 100, 490.1) 
AAPL', 50, 545.75) 
FB', 150, 7.45) 
HPQ', 75, 33.2) 
>>> 


如 果 想 执行 的 查询 操作 需要 接受 用 户 提供 的 输入 参数 ， 请 确保 用 ? 隔 开 参数 ， 就 像 下 面 
的 示例 这 样 : 


>>> min price = 100 


0 
0 
o 
0 








>>> for row in db.execute('select * from portfolio where price >= ?', 
(min_price,)): 


print (row) 


('GOOG', 100, 490.1) 
(‘AAPL', 50, 545.75) 
>>> 


6.8.3 讨论 

从 较 低 的 层次 来 看 ， 同 数据 库 的 交互 其 实 是 一 件 非常 直截了当 的 事 。 只 要 组 成 SQL 语 
名 然后 将 它们 传 给 底层 的 模块 就 可 以 更 新 数据 库 或 者 取出 数据 了 。 尽 管 如 此 ， 这 里 还 
是 有 一 些 比较 棘手 的 细节 问题 需要 针对 每 种 情况 逐 项 考虑 。 


其 中 一 个 比较 复杂 的 问题 就 是 将 数据 库 中 的 数据 映射 到 Python 的 类 型 中 。 对 于 像 日 期 
这 样 的 条 目 ， 最 常见 的 是 使 用 datetime 模块 中 的 datetime 实例 ， 或 者 也 可 能 是 time 模 
FRA AIM AZ (system timestamps )。 对 于 数值 型 的 数据 ， 尤 其 是 涉及 小 数 的 
金融 数据 ， 这 些 数字 可 以 用 decimal 模块 中 的 Decimal 实例 来 表示 。 不 幸 的 是 ， 确 切 的 
映射 关系 会 因数 据 库 后 端的 不 同 而 有 所 区 别 ， 因 此 必须 去 阅读 相关 的 文档 。 


另 一 个 极其 重要 的 问题 是 需要 考虑 组 成 SQL 语句 的 字符 串 。 我 们 绝对 不 应 该 用 Python 
的 字符 串 格式 化 操作 符 ( 即 % ) 或 者 .format0 方 法 来 创建 这 种 字符 串 。 如 果 给 这 样 的 格 
式 化 操作 符 提 供 的 值 是 来 自 于 用 户 的 输入 ,那么 这 就 等 于 将 你 的 程序 敞开 大 门 迎 接 
SQL 注入 攻击 ( 参见 http://xked.com/327 )。 在 查询 操作 中 ， 特 殊 的 ?通配符 会 指示 数据 
库 后 端 启用 自己 的 字符 串 替换 机 制 ， 这 样 才能 做 到 安全 (希望 如 此 )。 

可 悲 的 是 ,数据 库 后 端 对 通配符 的 支持 并 不 一 致 。 有 许多 模块 采用 的 是 ?或 %s ， 而 其 他 
一 些 可 能 会 使 用 不 同 的 符号 ， 比 如 用 :0 或 者 :1 来 代表 参数 。 这 里 再 次 说 明 ， 必 须 查 阅 
正在 使 用 的 数据 库 模 块 的 文档 资料 ,数据 库 模块 的 paramstyle 属性 中 也 包含 有 关于 引用 
样式 的 相关 信息 。 

对 于 简单 地 三 是 将 数据 从 数据 库 表 项 中 取出 和 输入 ， 使 用 数据 库 API 通常 足够 了 。 如 
果 要 处 理 更 加 复杂 的 任务 ， 那 么 使 用 一 种 更 高 层次 的 接口 就 显得 很 有 意义 了 ， 比 如 那 
些 提供 有 对 象 关 系 映射 组 件 ( object-relational mapper, ORM ) 的 接口 。 像 SQLAlchemy 
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(http://www.sqlalchemy.org ) 这 样 的 库 允 许 数据 库 表 项 以 Python 类 的 形式 来 描述 ,在 执 








行 数 据 库 操作 时 可 隐藏 大 部 分 底层 的 SQL。 


6.9 


6.9.1 


编码 和 解码 十 六 进 制 数 字 


问题 


我 们 需要 将 十 六 进 制 数组 成 的 字符 串 解码 为 字 节 流 , 或 者 将 字 节 流 编码 为 十 六 进 制 数 。 





6.9.2 解决 方案 























如 果 需 要 编码 或 解码 由 十 六 进 制 数组 成 的 原始 字符 串 











例如 下 : 


>>> # Initial byte string 
>>> s = b'hello' 


>>> # Encode as hex 

>>> import binascii 

>>> h = binascii.b2a_hex(s) 
>>> h 

b'68656c6c6f' 


>>> # Decode back to bytes 
>>> binascii.a2b_hex (h) 
b'hello' 

>>> 


同样 的 功能 也 可 以 在 base64 模块 中 找到 。 示 例如 下 : 


>>> import base64 

>>> h = base64.b16encode(s) 
>>> h 

b'68656C6CEF' 

>>> base64.b16decode (h) 


b'hello' 
>>> 
6.9.3 讨论 























， 可 以 使 用 binascii 模块 。 示 


对 于 大 部 分 情况 而 言 ， 采 用 上 面 给 出 的 函数 对 十 六 进 制 数 进行 转换 都 是 简单 直接 的 。 
这 两 种 技术 的 主要 区 别 在 于 大 写 转换 。base64.b16decode0 和 base64.b16encode0 函 数 只 
能 对 大 写 形式 的 十 六 进 制 数 进行 操作 ， 而 binascii 模块 能 够 处 理 任 意 一 种 情况 。 








此 外 还 需要 重点 提 到 的 是 编码 函数 产生 的 输出 




















总 是 字 节 串 。 如 果 要 将 其 强制 转换 为 
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Unicode 输出 ， 可 能 需要 增加 一 些 额 外 的 解码 操作 。 示 例如 下 : 


>>> h = base64.b16encode(s) 
>>> print (h) 

b'68656C6C6F' 

>>> print (h.decode('ascii')) 
68656C6COF 

>> 





当 解 码 十 六 进 制 数 时 ，b16decode0 和 a2b_hex0 函 数 可 接受 字 节 串 或 Unicode 字符 串 作 
为 输入 。 但 是 ， 这 些 字符 串 中 必须 只 能 包含 ASCH 编码 的 十 六 进 制 数字 。 








6.10 Base64 编码 和 解码 


6.10.1 问题 
我 们 需要 采用 Base64 编码 来 对 二 进 制 数据 做 编码 解码 操作 。 


6.10.2 ”解决 方案 


base64 模块 中 有 两 个 函数 一 一 b64encode() 和 b64decode() 一 一 它们 正 是 我 们 所 需要 的 。 
示例 如 下 : 


>>> # Some byte data 























>>> s = b'hello' 


>>> import base64 


>>> # Encode as Base64 

>>> a = base64.b64encode(s) 
>>> a 

b'aGVsbG8=' 


>>> # Decode from Base64 
>>> base64.b64decode (a) 
b'hello' 

>> 


6.10.3 讨论 

Base64 编码 只 能 用 在 面向 字 节 的 数据 上 ， 比 如 字 节 串 和 字 节 数组 。 此 外 ， 编 码 过 程 的 
输出 总 是 一 个 字 节 串 。 如 果 将 Base64 编码 的 数据 同 Unicode 文本 混在 一 起 ， 那 么 可 能 
需要 执行 一 个 额外 的 解码 步骤 。 示 例如 下 : 


>>> a = base64.b64encode(s 















































.decode('ascii') 


>>> a 
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"aGVsbG8=' 
>>> 


当 解 码 Base64 数据 时 ,， 字 节 串 和 Unicode 文本 字符 串 都 可 以 作为 输入 。 但 是 ，Unicode 
字符 串 中 只 能 包含 ASCI 字符 才 行 。 











6.11 读 写 二 进 制 结构 的 数组 


6.11.1 问题 
我 们 想 将 数据 编码 为 统一 结构 的 二 进 制 数 组 ,然后 将 这 些 数据 读 写 到 Python 元 组 中 去 。 


6.11.2 ”解决 方案 
要 同 二 进 制 数据 打交道 的 话 ， 我 们 可 以 使 用 struct 模块 。 下 面 的 示例 将 一 列 Python 元 
组 写 人 到 一 个 二 进 制 文 件 中 ， 通 过 struct 模块 将 每 个 元 组 编码 为 一 个 结构 。 























from struct import Struct 


def write records(records, format, f): 


mer 


Write a sequence of tuples to a binary file of structures. 
PEE, 
record struct = Struct (format) 
for r in records: 
f.write (record struct.pack (*r) ) 





# Example 
if name == ' main ': 
records = [ (1, 2.3, 4.5), 


(6, 7.8, 9.0), 
(12, 13.4, 56.7) ] 


with open('data.b', 'wb') as f: 
write records(records, '<idd', f) 


如 果 要 将 这 个 文件 重新 读 取 为 一 列 Python 元 组 的 话 ， 有 好 几 种 方法 可 以 实现 。 首 先 ， 
如 果 打算 按 块 以 增 量 式 的 方式 读 取 文 件 的 话 ， 可 以 按照 下 面 的 示例 来 实现 : 


from struct import Struct 














def read_records(format, f): 
record struct = Struct (format) 
chunks = iter (lambda: f.read(record_ struct.size), b'') 
return (record_struct.unpack (chunk) for chunk in chunks) 
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# Example 


if name == ' main ': 





with open('data.b','rb') as f: 
for rec in read_records('<idd', f): 


# Process rec 





如 果 只 想 用 一 个 readied FPR SC PE SRE Te BP, PR FERRI HS 
换 ， 那么 可 以 编写 如 下 的 代码 : 


from struct import Struct 

















def unpack records (format, data): 
record struct = Struct (format) 
return (record_struct.unpack_from(data, offset) 


for offset in range(0, len(data), record_struct.size) ) 


# Example 


if name == ' main ': 





with open('data.b', 'rb') as f: 
data = f.read() 


for rec in unpack_records('<idd', data): 


# Process rec 





在 这 两 种 情况 下 得 到 的 结果 都 是 一 个 可 迭代 对 象 ， 它 能 够 产生 出 之 前 保存 在 文件 中 的 
那些 元 组 。 
6.11.3 ”讨论 


对 于 那些 必须 对 二 进 制 数据 编码 和 解码 的 程序 , 我 们 常会 用 到 struct 模块 。 要 定义 一 个 
新 的 结构 ， 只 要 简单 地 创建 一 个 Struct 实例 即 可 : 





# Little endian 32-bit integer, two double precision floats 
record struct = Struct ('<idd') 

















结构 总 是 通过 一 组 结构 化 代码 来 定义 ， 比 如 i、d、f 等 (参见 Python 的 文档 
http://docs.python.org/3/library/struct.html )。 这 些 代码 同 特定 的 二 进 制 数据 相对 应 ， 比 如 
32 位 整数 、64 位 浮 点 数 、32 位 浮 点 数 等 。 而 第 一 个 字符 < 指定 了 字 节 序 。 在 这 个 例子 
中 表示 为 “小 端 序 "。 将 字符 修改 为 > 就 表示 为 大 端 序 ， 或 者 用 ! 来 表示 网 络 字 节 序 。 

得 到 的 Struct 实例 有 着 多 种 属性 和 方法 , 它们 可 用 来 操纵 那 种 类 型 的 结构 。size 属性 包 
含 了 以 字 节 为 单位 的 结构 体 大 小 ， 这 对 于 VO 操作 来 说 是 很 有 用 的 。pack0 和 unpack() 
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方法 是 用 来 打包 和 解 包 数据 的 。 示 例如 下 : 


>>> from struct import Struct 

>>> record struct = Struct ('<idd') 

>>> record struct.size 

20 

>>> record struct.pack(1, 2.0, 3.0) 
b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@' 
>>> record_struct.unpack (_) 

(1, 2.0, 3.0) 

>>> 


有 时 候 我 们 会 发 现 pack0 和 unpackO 会 以 模块 级 函数 (module-level functions ) 的 形式 调 





用 ， 就 像 下 面 的 示例 这 样 : 


>>> import struct 

>>> struct.pack('<idd', 1, 2.0, 3.0) 
b'\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x08@' 
>>> struct.unpack('<idd', _) 




















(1, 2.0, 3.0) 
这 么 做 行 的 通 , 但 是 比 起 创建 一 个 单独 的 Struct 实例 来 说 还 是 显得 不 那么 优雅 ， 尤 














其 是 如 果 相 同 的 结构 会 在 代码 中 多 处 出 现时 。 通 过 创建 一 个 Struct 实例 ， 我 们 只 用 
指定 一 次 格式 化 代码 ， 所 有 有 用 的 操作 都 被 漂亮 地 归 组 到 了 一 起 (通过 实例 方法 来 
调用 )。 如 果 需 要 同 结构 打交道 的 话 ， 这 人 么 做 肯定 会 使 得 代码 更 容易 维护 ( 因为 只 
需要 修改 一 处 即 可 )。 
用 来 读 取 二 进 制 结构 的 代码 中 涉及 一 些 有 趣 而 且 优 雅 的 编程 惯用 法 ( programming 
idioms )。 在 函数 read_records0 中 ,我们 用 iter0 来 创建 一 个 迭代 器 ， 使 其 返回 固定 大 小 
的 数据 块 ( 参见 5.8 T ), 这 个 迭代 器 会 重复 调用 一 个 用 户 提 供 的 可 调用 对 象 ( 即 ,lambda: 


f.read(record struct.size) ) 直到 它 返 回 一 个 指定 值 为 止 ( 即 ，b" )， 此 时 迭代 过 程 结 
































示例 如 下 : 


>>> f = open('data.b', 'rb') 
>>> chunks = iter(lambda: f.read(20), b'') 
>>> chunks 
<callable_ iterator object at 0x10069e6d0> 
>>> for chk in chunks: 

print (chk) 


b'\x01\x00\x00\x00ffffF£\x02@\x00\x00\x00\x00\x00\x00\x12@' 
b'\x06\x00\x00\x00333333\x1£@\x00\x00\x00\x00\x00\x00"@' 
b'\x0c\x00\x00\x00\xcd\xcc\xec\xcc\xcc\xcc*@\x9a\x99\x99\x99\x99YLG' 
>>> 
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创建 一 个 可 迭代 对 象 的 原因 之 一 在 于 这 么 做 允许 我 们 通过 一 个 生成 器 表达 式 来 创建 records 
记录 ， 就 像 解决 方案 中 展示 的 那样 。 如 果 不 采用 这 种 方式 ， 那 么 代码 看 起 来 就 会 像 这 样 ; 
def read_records(format, f): 
record struct = Struct (format) 
while True: 
chk = f.read(record_struct.size) 
if chk == b'': 
break 
yield record_struct.unpack (chk) 
return records 


在 函数 unpack recordsO 中 我 们 采用 了 另 一 种 方法 。 这 里 使 用 的 unpack from() 方 法 对 于 
从 大 型 的 二 进 制 数组 中 提取 出 二 进 制 数据 是 非常 有 用 的 ， 因 为 它 不 会 创建 任何 临时 对 
象 或 者 执行 内 存 拷贝 动作 。 我 们 只 需 提 供 一 个 字 节 串 〈 或 者 任意 的 数组 )， 再 加 上 一 个 
字 节 偏 移 量 ， 它 就 能 直接 从 那个 位 置 上 将 字段 解 包 出 来 。 

如 果 用 的 是 unpack0 而 不 是 unpack_from()， 那 么 需要 修改 代码 ， 创 建 许多 小 的 切片 对 
象 并 有 旦 还 要 计算 偏 移 量 。 示 例如 下 : 


def unpack records (format, data): 









































record struct = Struct (format) 
return (record_struct.unpack (data[offset:offset + record_struct.size]) 
for offset in range(0, len(data), record_struct.size) ) 


这 个 版 本 的 实现 除了 读 取 数据 变 得 更 加 复杂 之 外 ， 还 需要 完成 许多 工作 ， 因 为 它 得 计 
算 很 多 偏 移 量 ， 拷 贝 数据 ， 创 建 小 的 切片 对 象 。 如 果 打 算 从 已 读 取 的 大 型 字 节 串 中 解 
包 出 许多 结构 的 话 ， 那 么 unpack _from0 是 更 加 优雅 的 方案 。 

我 们 可 能 会 想 在 解 包 记 录 时 利用 collections 模块 中 的 namedtuple 对 象 。 这 么 做 允许 我 
们 在 返回 的 元 组 上 设 定 属性 名 。 示 例如 下 : 


from collections import namedtuple 

















Record = namedtuple('Record', ['kind','x','y']) 


with open('data.p', 'rb') as f: 
records = (Record(*r) for r in read_records('<idd', f)) 


for r in records: 
print (r.kind, r.x, r.y) 


如 果 正 在 编写 一 个 需要 同 大 量 的 二 进 制 数据 打交道 的 程序 ， 最 好 使 用 像 numpy 这 样 的 
库 。 比 如 ， 与 其 将 二 进 制 数据 读 取 到 元 组 列表 中 ， 不 如 直接 将 数据 读 和 人 到 结构 化 的 数 
组 中 ， 就 像 这 样 : 


>>> import numpy as np 
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>>> f = open('data.b', 'rb') 

>>> records = np.fromfile(f, dtype='<i,<d,<d') 

>>> records 

array([(1, 2.3, 4.5), (6, 7.8, 9.0), (12, 13.4, 56.7)], 
dtype=[('f0', '<i4'), ('f1l', '<f8'), ('£2', '<f8')] 

>>> records [0] 

(1, 2.3, 4.5) 

>>> records [1] 

(6, 7.8, 9.0) 

>>> 


最 后 但 同样 重要 的 是 , 如 果 面 对 的 任务 是 从 某 种 已 知 的 文件 结构 中 读 取 二 进 制 数据 ( 例 
如 图 像 格 式 、shapefile 、HDF5 等 )， 请 先 检 查 是 否 已 有 相应 的 Python 模块 可 用 。 没 必 
的 话 就 别 去 重复 发 明 轮 子 了 。 


























6.12 ERREMATEA 


6.12.1 问题 
我 们 需要 读 取 复 森 的 二 进 制 编码 数据 ， 这 些 数据 中 包含 有 一 系列 般 套 的 或 者 大 小 可 变 
的 记录 。 这 种 数据 包括 图 片 、 视 频 、shapefile ( zh.wikipedia.org/zh-cn/Shapefile ) 等 。 


6.12.2 解决 方案 
struct 模块 可 用 来 编码 和 解码 几乎 任何 类 型 的 二 进 制 数据 结构 。 为 了 说 明 本 节 中 提 到 的 这 种 数 
据 , 假设 我 们 有 一 个 用 Python 数据 结构 表示 的 点 的 集合 ， 这 些 点 可 用 来 组 成 一 系列 的 三 角形 : 


polys = [ 
































[ (1.0, 2.5), (3.5, 4.0), (2.5, 1.5) ]， 
[ (7.0, 1.2), (5.1, 3.0), (0.5, 7.5), (0.8, 9.0) J, 





现在 假设 要 将 这 份 数据 编码 为 一 个 二 进 制 文件 ， 这 个 文件 的 文件 头 可 以 表示 为 如 下 的 形式 : 




















字 节 类 型 描 述 
0 int 文件 代码 ( 0x1234， 小 端 ) 
4 double x 的 最 小 值 (小 端 ) 
12 double y 的 最 小 值 (小 端 ) 
20 double x 的 最 大 值 (小 端 ) 
28 double y 的 最 大 值 (小 端 ) 
36 int 三 角形 数量 (小 端 ) 














数据 编码 与 处 理 207 





紧 跟 在 这 个 文件 头 之 后 的 是 一 系列 的 三 角形 记录 ， 每 条 记录 编码 为 如 下 的 形式 : 














字 oT 类 型 描 OK 
0 int 记录 长 度 (N 字 节 ) 
4-N Points CXY) 坐 标 ， 以 浮 点 数 表示 





要 写 入 这 个 文件 ， 可 以 使 用 如 下 的 Python 代码 : 


import struct 
import itertools 


def write polys (filename, polys): 
# Determine bounding box 
flattened = list (itertools.chain(*polys) ) 
min_x = min(x for x, y in flattened) 


max x = max(x for x, y in flattened 





) 
min_y = min(y for x, y in flattened) 
max_y = max(y for x, y in flattened) 


with open(filename, 'wb') as f: 
f.write (struct .pack ('<iddddi', 
0x1234, 
min_x, min_y, 
max x, mMax_y, 


len (polys))) 


for poly in polys: 
size = len(poly) * struct.calcsize('<dd') 
f.write(struct.pack('<i', size+4)) 
for pt in poly: 
f.write(struct.pack('<dd', *pt)) 


# Call it with our polygon data 
write _polys('polys.bin', polys) 


要 将 结果 数据 回 读 的 话 ， 可 以 利用 stuctunpackO 函 数 写 出 相似 的 代码 ， 只 是 在 编写 的 
时 候 将 所 执行 的 操作 反 转 即 可 ( 即 ， 用 unpack0 取 代 之 前 的 pack() )。 示 例如 下 ; 


import struct 





def read_polys (filename) : 
with open(filename, 'rb') as f: 
# Read the header 
header = f.read(40) 
file code, min x, min_y, max_x, max_y, num polys = \ 


struct.unpack('<iddddi', header) 
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polys = [] 
for n in range(num_polys): 
pbytes, = struct.unpack('<i', f.read(4)) 
poly = [] 
for m in range(pbytes // 16): 
pt = struct.unpack('<dd', f.read(16) 
poly.append (pt) 
polys.append (poly) 
return polys 


管 这 份 代码 能 够 工作 ， 但 是 其 中 混杂 了 一 些 read 调用 、 对 结构 的 解 包 以 及 其 他 一 些 
节 ， 因 此 代码 比较 杂乱 。 如 果 用 这 样 的 代码 去 处 理 一 个 真正 的 数据 文件 ， 很 快 就 会 
更 加 混乱 。 因 此 ， 很 明显 需要 寻求 其 他 的 解决 方案 来 简化 其 中 的 一 些 步 骤 ， 将 程 
序 员 解 放出 来 ， 把 精力 集中 在 更 加 重要 的 问题 上 。 

在 本 节 剩 余 的 部 分 中 ,我们 将 逐步 构建 出 一 个 用 来 解释 二 进 制 数 据 的 高 级 解决 方案 ， 
目的 是 让 程序 员 提 供 文 件 格 式 的 高 层 规 范 ， 而 将 读 取 文件 以 及 解 包 所 有 数据 的 细节 部 
分 都 隐藏 起 来 。 先 提前 给 读者 预警 ， 本 节 后 面 的 代码 可 能 是 本 书 中 最 为 高 级 的 示例 ， 
运用 了 多 种 面向 对 象 编程 和 元 编程 的 技术 。 请 确保 仔细 阅读 本 节 的 讨论 部 分 ， 并 且 需 
要 来 回 翻阅 其 他 章节 ， 交 叉 参 考 。 

首先 ， 当 我 们 读 取 二 进 制 数据 时 ,文件 中 包含 有 文件 涉 和 其 他 的 数据 结构 是 非常 常见 
的 。 尽 管 struct 模块 能 够 将 数据 解 包 为 元 组 ,但 另 一 种 表示 这 种 信息 的 方式 是 通过 类 。 
下 面 的 代码 正 是 这 么 做 的 : 


import struct 










































































class StructField: 


mr 


Descriptor representing a simple structure field 
ree 
def init (self, format, offset): 
self.format = format 
self.offset = offset 
def get (self, instance, cls): 
if instance is None: 
return self 
else: 
r = struct.unpack_from(self.format, 
instance. buffer, self.offset) 
return r[0] if len(r) == 1 else r 


class Structure: 
def init__(self, bytedata): 
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self. buffer = memoryview(bytedata) 


代码 中 使 用 了 描述 符 (descriptor ) 来 代表 每 一 个 结构 字段 。 每 个 描述 符 中 都 包含 了 一 
个 struct 模块 可 识别 的 格式 代码 (format ) 以 及 相对 于 底层 内 存 缓冲 区 的 字 节 偏 移 
(offset ), 在 ”get 0 方法 中 ,通过 struct.unpack from() 函 数 从 缓冲 区 中 解 包 出 对 应 的 值 ， 











这 样 就 不 用 创建 额外 的 切片 对 象 或 者 执行 拷贝 动作 了 。 








Structure 类 只 是 用 作 基 类 , 它 接受 一 些 字 节 数 据 并 保存 在 由 StructField 描述 符 所 使 用 的 





底层 内 存 缓冲 区 中 。 这 样 一 来 ， 在 Structure 类 中 用 到 的 memoryview(), 


楚 了 。 


意图 就 非常 清 





使 用 这 份 代码 ， 现 在 就 可 以 将 结构 定义 为 高 层次 的 类 ， 将 前 面 表格 中 用 来 描述 文件 格 





式 的 信息 都 映射 到 类 的 定义 中 。 示 例如 下 : 


class PolyHeader (Structure) : 
file code = StructField('<i', 0) 
min_x = StructField('<d', 4) 
min_y = StructField('<d', 12) 
max_x = StructField('<d', 20) 
max_y = StructField('<d', 28) 
num_polys = StructField('<i', 36) 


下 面 的 示例 使 用 这 个 类 来 读 取 之 前 写 入 的 三 角形 数据 的 文件 头 : 


>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader (f.read (40) ) 
>>> phead.file code == 0x1234 





True 
>>> phead.min_x 
0.5 
>>> phead.min_y 
0.5 
>>> phead.max_ x 
7.0 
>>> phead.max_y 
9.2 
>>> phead.num_polys 
3 

>>> 





这 么 做 挺 有 趣 的 ， 但 是 这 种 方法 还 存在 许多 问题 。 第 一 ， 尽 管 得 到 了 便利 的 类 接口 ， 
但 代码 比较 元 长 ， 需 要 用 户 指定 许多 底层 的 细节 ( 比如 ,重复 使 用 StructField、 指 定 偏 














移 量 等 )。 得 到 的 结果 中 ， 这 个 类 也 缺少 一 些 常用 的 便捷 方法 ， 比 如 提供 


算 结 构 的 总 大 小 。 


一 种 方式 来 计 





AE {nf BY fe 4 Ty eb ae APE PTR AY ES ESOS, PB KH LE HE A SE HAE (class 
decorator ) 或 者 元 类 ( metaclass )。 元 类 的 功能 之 一 是 它 可 用 来 填充 许多 底层 的 实现 
细节 ， 把 这 份 负 担 从 用 户 身 上 拿 走 。 举 个 例子 ， 考 虑 下 面 这 个 元 类 和 稍微 修改 过 的 


Structure 类 : 





T 











class StructureMeta (type) : 


mr 


Metaclass that automatically creates StructField descriptors 
mee 
def init (self, clsname, bases, clsdict): 
fields = getattr (self, ' _fields_', []) 
byte_order = '' 
offset = 0 
for format, fieldname in fields: 
if format.startswith(('<','>','!','@')): 
byte_order = format [0] 
format = format [1:] 
format = byte order + format 
setattr(self, fieldname, StructField(format, offset) ) 
offset += struct.calcsize (format) 
setattr(self, 'struct_size', offset) 


class Structure (metaclass=StructureMeta) : 
def init__(self, bytedata): 
self. buffer = bytedata 


@classmethod 
def from file(cls, f): 
return cls(f.read(cls.struct_size) ) 


使 用 这 个 新 的 Structure 类 ， 现 在 就 可 以 像 这 样 编写 结构 的 定义 了 : 


class PolyHeader (Structure) : 
_fields_ = [ 








'<i', 'file code'), 
d "min x'), 
d', 'min_y'), 
d', 'max_x'), 
'd', 'max_y'), 


( 
( 
( 
( 
( 
( 


'i', 'num_polys') 


] 


以 看 到 , 现在 的 定义 要 简化 得 多 。 新 增 的 类 方法 from_file0) 也 使 得 从 文件 中 读 取 数 据 
得 更 加 简单 ， 因 为 现在 不 需要 了 解数 据 的 结构 大 小 等 细节 问题 了 。 比 如 ， 现 在 可 以 
ASE 





be kt Sl 
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>>> f = open('polys.bin', 'rb') 





>>> phead = PolyHeader.from_file(f) 
>>> phead.file_code == 0x1234 
True 

>>> phead.min_x 

0.5 

>>> phead.min_y 

0.5 

>>> phead.max_x 

7.0 

>>> phead.max_y 

9.2 

>>> phead.num_polys 

3 

>>> 





ASA TER, MUWA EE Ae RE CRE 4 EU, RER ie Be i BY 
二 进 制 结构 提供 支持 。 下 面 是 对 这 个 元 类 的 修改 ,以 及 对 新 功能 提供 支持 的 描述 符 
定义 : 

class NestedStruct: 


rr 








Descriptor representing a nested structure 
tri 
def init (self, name, struct_type, offset): 
self.name = name 
self.struct_type = struct_type 
self.offset = offset 
def get (self, instance, cls): 
if instance is None: 
return self 
else: 
data = instance. buffer[self.offset: 
self.offset+self.struct_type.struct_size] 
result = self.struct_type (data) 
# Save resulting structure back on instance to avoid 
# further recomputation of this step 
setattr (instance, self.name, result) 
return result 


class StructureMeta (type) : 


meer 


Metaclass that automatically creates StructField descriptors 


meer 


def init (self, clsname, bases, clsdict): 
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fields = getattr(self, ' _fields_', []) 
byte_order = '' 
offset = 0 
for format, fieldname in fields: 
if isinstance (format, StructureMeta): 
setattr(self, fieldname, 
NestedStruct (fieldname, format, offset) ) 
offset += format.struct_size 
else: 
if format.startswith(('<','>','!','@"')): 
byte_order = format [0] 
format = format [1:] 
format = byte order + format 
setattr(self, fieldname, StructField(format, offset) ) 
offset += struct.calcsize (format) 
setattr(self, 'struct_size', offset) 


在 这 份 代码 中 , NestedStruct 描述 符 的 作用 是 在 一 段 内存 区 域 上 定义 另 一 个 结构 。 这 是 通过 
在 原 内 存 缓冲 区 中 取 一 个 切片 ， 然 后 在 这 个 切片 上 实例 化 给 定 的 结构 类 型 来 实现 的 。 由 于 
底层 的 内 存 缓冲 区 是 由 memoryview 来 初始 化 的 , 因此 这 个 切片 操作 不 会 涉及 任何 额外 的 内 
存 拷贝 动作 。 es 它 只 是 在 原来 的 内 存 中 “覆盖 ”上 新 的 结构 实例 。 此 外 ， 要 避免 重复 
的 实例 化 动作 ， 这 个 描述 符 会 利用 8.10 节 中 提 到 的 技术 将 内 层 结构 对 象 保存 在 该 实例 上 。 


使 用 这 种 新 的 技术 ， 现 在 就 可 以 像 这 样 编写 代码 了 : 


class Point (Structure) : 
_fields_ = [ 
Cr on ae 
('d', 'y') 



























































] 


class PolyHeader (Structure) : 
_fields_ = [ 
('<i', 'file code'), 
(Point, 'min'), # nested struct 
(Point, 'max'), # nested struct 
('i', 'num_polys') 


] 


太 神 奇 了 ， 一 切 都 还 是 按照 所 期 望 的 方式 正常 运转 。 示 例如 下 : 


>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader.from_file(f) 








>>> phead.file_code == 0x1234 
True 





g 类 似 C++ 中 的 placement new 技法 。 一 一 译 者 注 





数据 编码 与 处 理 213 


>>> phead.min # Nested structure 
<_main_.Point object at 0x1006a48d0> 
>>> phead.min.x 

0.5 
>>> phead.min.y 
0.5 
>>> phead.max.x 
7.0 
>>> phead.max.y 
9.2 
>>> phead.num_polys 





到 目前 为 止 ， 我 们 已 经 成 功 开 发 了 一 个 用 来 处 理 固定 大 小 记录 的 


E 架 。 但 是 对 于 大 小 











可 变 的 组 件 又 该 如 何 处 理 呢 ? 比如 说 ， 这 份 三 角形 数据 文件 的 剩余 部 分 中 包含 有 大 小 


可 变 的 区 域 。 


























一 种 处 理 方法 是 编写 一 个 类 来 简单 代表 一 块 二 进 制 数据 ， 并 附带 一 个 通用 函数 来 负 

















以 不 同 的 方式 来 解释 数据 的 内 容 。 这 和 6.11 节 中 的 代码 关系 紧密 : 


class SizedRecord: 
def init__(self, bytedata): 
self. buffer = memoryview(bytedata) 


@classmethod 

def from file(cls, f, size fmt, includes_size=True): 
sz_nbytes = struct.calcsize(size_fmt) 
sz_bytes = f.read(sz_nbytes) 
sz, = struct.unpack(size_fmt, sz_bytes) 
buf = f.read(sz - includes_size * sz_nbytes) 
return cls (buf) 


def iter as(self, code): 
if isinstance(code, str): 
s = struct.Struct (code) 
for off in range(0, len(self. buffer), s.size): 
yield s.unpack_from(self. buffer, off) 
elif isinstance(code, StructureMeta): 
size = code.struct_size 
for off in range(0, len(self. buffer), size): 
data = self. buffer[off:off+size] 
yield code (data) 





页 


这 里 的 类 方法 SizedRecord.from fie0 是 一 个 通用 的 函数 ， 用 来 从 文件 中 读 取 大 小 预定 
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好 的 数据 块 ， 这 在 许多 文件 格式 中 都 是 很 常见 的 。 对 于 输入 参数 ， 它 可 接受 结构 的 格 
式 代 码 ， 其 中 包含 有 编码 的 大 小 〈 以 字 节 数 表 示 )。 可 选 参数 includes_size 用 来 指定 字 
节 数 中 是 否 要 包含 进 文件 头 的 大 小 。 下 面 的 示例 展示 如 何 使 用 这 份 代码 来 读 取 三 角形 
数据 文件 中 那些 单独 的 三 角形 : 


>>> f = open('polys.bin', 'rb') 


























>>> phead = PolyHeader.from_file(f) 

>>> phead.num_polys 

3 

>>> polydata = [ SizedRecord.from_file(f, '<i') 

wee for n in range(phead.num_polys) ] 

>>> polydata 
[<_main_.SizedRecord object at 0x1006a4d50>, 
<_main_.SizedRecord object at 0x1006a4f50>, 
<_main_.SizedRecord object at 0x10070da90>] 
>>> 


可 以 看 到 ，SizedRecord 实例 的 内 容 还 没有 经 过 解释 。 要 做 到 这 一 点 , 可 以 使 用 iter_as() 
方法 。 该 方法 可 接受 一 个 结构 格式 代码 或 者 Structure 类 作为 输入 。 这 给 了 我 们 极 大 的 
自由 来 选择 如 何 解 释 数据 。 比 如 : 


>>> for n, poly in enumerate (polydata): 





print ('Polygon', n) 
for p in poly.iter_as('<dd'): 
print (p) 

Polygon 0 
(t.0; 245) 
(3.5, 4.0) 
(2.3, 195) 
Polygon 1 
(10 Ay 2 
(5.1, 3.0 
(0.5, 7.5 
(0.8, 9.0 
Polygon 2 
(3.4, 6.3) 
(1.2, 0.5) 
(4.6, 9.2) 
>>> 


>>> for n, poly in enumerate (polydata): 
print ('Polygon', n) 
for p in poly.iter_as (Point): 
print (p.x, p.y) 
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Polygon 0 
1.0 2.5 
3.5 4.0 
YAS gl Bt) 
Polygon 1 
7.0 1.2 
541-3,0 
Qa Two 
0.8 9.0 
Polygon 2 
3.4 6.3 
1.2 0.5 
4.6 9.2 
>>> 


现在 我 们 把 所 有 的 东西 


class Point (Structure): 
_fields_ [ 
(SE Ty 
Ca', ty") 








结合 


class PolyHeader (Structure) : 
_fields_ = [ 
"file code'), 


<i', 


x 
Point, 'min'), 
Point, 'max'), 


( 
( 
( 
( 


'i', 'num_polys') 


] 


def read_polys (filename): 
[] 


with open (filename, 


polys 
'rb') as f: 


phead = PolyHeader.from file (f) 


for n in range(phead.num_polys): 


rec = SizedRecord.from file 
poly = [ (p.x, p.y) 


for p in rec.iter_ 


polys.append (poly) 
return polys 


6.12.3 讨论 
本 节 展 示 了 多 种 高 级 编程 技术 的 实际 应 有 





(£, '<i') 


as (Point) ] 


起 来 。 下 面 是 read_polys0) 函 数 的 男 一 种 实现 : 





H, ERREARI 
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类 变量 以 及 memoryview。 只 是 它们 都 用 于 一 个 非常 具体 的 目的 而 已 。 
本 


Ez 
节 给 出 的 实现 中 ， 一 个 非常 重要 的 特性 就 是 强烈 基于 惰性 展开 (1azy-unpacking ) 的 
思想 。 每 当 创 建 出 一 个 Structure 实例 时 ， init 0 方法 只 是 根据 提供 的 字 节 数据 创建 
出 一 个 memoryview， 除 此 之 外 别 的 什么 都 不 做 。 具 体 而 言 就 是 这 个 时 候 不 会 进行 任何 
的 解 包 或 其 他 与 结构 相关 的 操作 。 采 用 这 种 方法 的 一 个 动机 是 我 们 可 能 只 对 二 进 制 记 
录 中 的 某 几 个 特定 部 分 感 兴趣 。 与 其 将 整个 文件 解 包 展开 ， 不 如 只 对 实际 要 访问 到 的 
那儿 个 部 分 解 包 即 可 。 


要 实现 惰性 展开 和 对 值 进 行 打 包 , StructField 描述 符 就 派 上 用 场 了 。 用 户 在 _fields_ 中 列 
出 的 每 个 属性 都 会 转换 为 一 个 StructField 描述 符 ， 它 保存 着 相关 属性 的 结构 化 代码 和 
相对 于 底层 内 存 缓冲 区 的 字 节 偏 移 量 。 当 我 们 定义 各 种 各 样 的 结构 化 类 型 时 ， 元 类 
StructureMeta 用 来 自动 创建 出 这 些 描 述 符 。 使 用 元 类 的 主要 原因 在 于 这 么 做 能 以 高 层 
次 的 描述 来 指定 结构 的 格式 ， 完 全 不 用 操心 底层 的 细节 问题 ， 因 而 能 极 大 地 简化 用 户 
的 操作 。 

元 类 StructureMeta 中 有 一 个 微妙 的 方面 需要 注意 ， 那 就 是 它 将 字 节 序 给 规定 死 了 。 也 就 
说 ,如 果 有 任何 属性 指定 了 字 节 序 (< 指 代 小 端 序 ， 而 > 指 代 大 端 序 ) 那么 这 个 字 节 序 就 
适用 于 该 属性 之 后 的 所 有 字段 。 这 种 行为 可 避免 我 们 产生 额外 的 键盘 输入 ， 同 时 也 使 得 
在 定义 字段 时 可 以 切换 字 节 序 。 比 如 说 ， 我 们 可 能 会 碰 到 下 面 这 样 更 加 复杂 的 数据 : 

class ShapeFile(Structure): 
_fields_ = [ ('>i', 'file code')，# Big endian REZEAH, FAABHAZAH 
















































































'20s', ‘unused'), 

'i', 'file_length'), 

'<i', 'version'), # Little endian WHA), MERA ME PRENI 
'i', 'shape_type'), 


( 
( 
( 
( 
('d', 'min_x'), 
('d', 'min_y'), 
('d', 'max_x'), 
('d', 'max_y'), 
('d', 'min_z'), 
(dy 'max_z'), 
(QT Tmintm' 
('d', 'max_m') ] 





前 文中 提 到 ， 解 决 方案 中 对 memoryviewO 的 使 用 起 到 了 避免 内 存 拷贝 的 作用 。 当 结构 
数据 开始 出 现 谈 套 时 ,memoryview 可 用 来 在 相同 的 内 存 区 域 中 覆盖 上 不 同 的 结构 定义 。 
这 种 行为 十 分 微妙 , 它 考虑 到 了 切片 操作 在 memoryview 和 普通 的 字 节 数组 上 的 不 同行 
为 。 如 果 对 字 节 串 或 字 节 数组 执行 切片 操作 的 话 ， 通 常 都 会 得 到 一 份 数据 的 拷贝 ， 但 
memoryview 就 不 会 这 样 切片 只 是 简单 地 覆盖 在 已 有 的 内 存 之 上 。 因 此 ,这 种 方法 
更 加 高 效 。 
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还 有 一 些 相关 的 章节 会 帮助 我 们 对 解决 方案 中 用 到 的 技术 进行 扩展 。8.13 T RRHH 
述 符 构 建 了 一 个 类 型 系统 。8.10 节 中 介绍 了 有 关 惰 性 计算 的 性 质 ， 这 个 和 NestedStruct 
描述 符 的 实现 有 一 定 的 相关 性 。9.19 节 中 有 一 个 例子 采用 元 类 来 初始 化 类 的 成 员 ， 这 
个 和 StructureMeta 类 采用 的 方式 非常 相似 。 我 们 可 能 也 会 对 Python 标准 库 中 ctypes 模 
块 的 源 代码 产生 兴趣 ， 因 为 它 对 定义 数据 结构 、 对 数据 结构 的 般 套 以 及 类 似 功 能 的 支 
持 和 我 们 的 解决 方案 比较 相似 。 








6.13 ”数据 汇总 和 统计 


6.13.1 问题 
我 们 需要 在 大 型 数据 库 中 查询 数据 并 由 此 生成 汇总 或 者 其 他 形式 的 统计 数据 。 


6.13.2 ”解决 方案 
对 于 任何 涉及 统计 、 时 间 序 列 以 及 其 他 相关 技术 的 数据 分 析 问 题 ， 都 应 该 使 用 Pandas 
JE (http://pandas.pydata.org )。 


为 了 小 试 牛刀 ， 下 面 这 个 例子 使 用 Pandas 来 分 析 芝 加 哥 的 老鼠 和 嘴 齿 动物 数据 库 ( https:// 
data.cityofchicago.org/Service-Requests/311-Service-Requests-Rodent-Baiting/97t6-zrhs )。 


在 写作 本 书 时 ， 这 个 CSV 文件 中 有 大 约 74 000 条 数据 : 


>>> import pandas 














>>> # Read a CSV file, skipping last line 
>>> rats = pandas.read_csv('rats.csv', skip_footer=1) 
>>> rats 


<class 'pandas.core.frame.DataFrame'> 





Int64Index: 74055 entries, 0 to 74054 

Data columns: 

Creation Date 74055 non-null values 
Status 74055 non-null values 
Completion Date 72154 non-null values 
Service Request Number 74055 non-null values 
Type of Service Request 74055 non-null values 
Number of Premises Baited 65804 non-null values 


Number of Premises with Garbage 65600 non-null values 














Number of Premises with Rats 65752 non-null values 
Current Activity 66041 non-null values 
Most Recent Action 66023 non-null values 
Street Address 74055 non-null values 
ZIP Code 73584 non-null values 
X Coordinate 74043 non-null values 




















Y Coordinate 74043 non-null values 
Ward 74044 non-null values 
Police District 74044 non-null values 
Community Area 74044 non-null values 
Latitude 74043 non-null values 
Longitude 74043 non-null values 
Location 74043 non-null values 


dtypes: float64(11), object (9) 


>>> # Investigate range of values for a certain field 
>>> rats['Current Activity'] .unique() 


array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object) 


>>> # Filter the data 


>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew'] 


>>> len (crew_dispatched) 
65676 
>>> 


>>> # Find 10 most rat-infested ZIP codes in Chicago 








>>> crew_dispatched['ZIP Code'].value_counts() [:10] 
60647 3837 
60618 3530 
60614 3284 
60629 3251 
60636 2801 
60657 2465 
60641 2238 
60609 2206 
60651 2152 
60632 2071 
>>> 


>>> # Group by completion date 

>>> dates = crew_dispatched.groupby('Completion Date') 
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10> 
>>> len (dates) 

472 

>>> 


>>> # Determine counts on each day 
>>> date_counts = dates.size() 

>>> date_counts[0:10] 

Completion Date 

01/03/2011 4 
01/03/2012 125 
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01/04/20 54 
01/04/2012 38 
01/05/20 78 
01/05/2012 100 
01/06/20 100 
01/06/2012 58 
01/07/20 1 
01/09/2012 12 
>>> 


>>> # Sort the counts 
>>> date_counts.sort () 
>>> date_counts[-10:] 


Completion Date 











0/12/2012 313 
0/21/20 314 
09/20/20 316 
0/26/20 319 
02/22/20 325 
0/26/2012 333 
03/17/20 336 
0/13/20 378 
0/14/20 391 
0/07/20 457 
>>> 








你 没 看 错 ，2011 年 10 月 7 号 对 于 老鼠 来 说 的 确 是 非常 忙碌 的 一 天 。 


6.13.3 讨论 

Pandas 是 一 个 庞大 的 库 ， 它 还 有 更 多 的 功能 ， 但 我 们 无 法 在 此 一 一 描述 。 但 是 ， 如 果 
需要 分 析 大 型 的 数据 集 、 将 数据 归 组 、 执 行 统 计 分 析 或 者 其 他 类 似 的 任务 , 那么 Pandas 
绝对 值得 一 试 。 

由 Wes McKinney 所 著 的 Python for Data Analysis ( O’Reilly ) 一 书 中 也 包含 了 更 多 的 
内 容 。 
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FA def 语句 定义 的 函数 是 所 有 程序 的 基石 。 本 章 的 目的 是 向 读者 展示 一 些 更 加 高 级 和 独 
特 的 函数 定义 以 及 使 用 模式 。 主 题 包括 默认 参数 、 可 接受 任意 数量 参数 的 函数 、 关 键 
字 参 数 、 参 数 注解 以 及 闭 包 。 此 外 ， 有 关 利 用 回调 函数 实现 巧妙 的 控制 流 以 及 数据 传 
递 的 问题 也 有 涉及 。 








7.1 编写 可 接受 任意 数量 参数 的 函数 


7.1.1 问题 

我 们 想 编写 一 个 可 接受 任意 数量 参数 的 函数 。 

7.1.2 解决 方案 

要 编写 一 个 可 接受 任意 数量 的 位 置 参数 的 函数 ， 可 以 使 用 以 * 开 头 的 参数 。 示 例如 下 ; 


def avg(first, *rest): 


return (first + sum(rest)) / (1 + len(rest)) 


















































# Sample use 
avg(1, 2) # 1.5 
avg(1, 2, 3, 4) # 2.5 


在 这 个 示例 中 ,rest 是 一 个 元 组 ， 它 包含 了 其 他 所 有 传递 过 来 的 位 置 参数 。 代 码 在 之 后 
的 计算 中 会 将 其 视 为 一 个 序列 来 处 理 。 
如 果 要 接受 任意 数量 的 关键 字 参 数 ， 可 以 使 用 以 ** 开 头 的 参数 。 示 例如 下 : 


import html 
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def make element (name, value, **attrs): 
keyvals = [' %s="Ss"' % item for item in attrs.items() ] 
attr_str = ''. join(keyvals) 
element = '<{name}{attrs}>{value}</{name}>'. format ( 
name=name, 
attrs=attr_str, 
value=html.escape (value) ) 


return element 


# Example 
# Creates ‘<item size="large" quantity="6">Albatross</item>' 


make_element (‘item', 'Albatross', size='large', quantity=6) 


# Creates '<p>&lt;spamégt;</p>' 


make_element ('p', '<spam>') 
在 这 里 attrs 是 一 个 字典 ， 它 包含 了 所 有 传递 过 来 的 关键 字 参 数 ( 如果 有 的 话 )。 


如 果 想 要 函数 能 同时 接受 任意 数量 的 位 置 参 数 和 关键 字 参 数 ， 只 要 联合 使 用 * 和 ** 即 
可 。 示 例如 下 : 


def anyargs(*args, **kwargs): 






































print (args) # A tuple 
print (kwargs) # A dict 


在 这 个 函数 中 ， 所 有 的 位 置 参数 都 会 放置 在 元 组 args 中 ， 而 所 有 的 关键 字 参 数 都 会 放 
置 在 字典 kwargs 中 。 


7.1.3 讨论 
在 函数 定义 中 ， 以 * 打 头 的 参数 只 能 作为 最 后 一 个 位 置 参数 出 现 ， 而 以 sx 打头 的 参数 只 


能 作为 最 后 一 个 参数 出 现 。 在 函数 定义 中 存在 一 个 很 微妙 的 特性 ， 那 就 是 在 * 打 头 的 参 
数 后 仍然 可 以 有 其 他 的 参数 出 现 。 


def a(x, *args, y): 





























pass 


def b(x, *args, y, **kwargs): 


pass 


\\ 


这 样 的 参数 称 之 为 keyword-only 参数 ( 即 ， 出 现在 *args 之 后 的 参数 只 能 作为 关键 字 参 
数 使 用 )。7.2 节 中 会 做 进一步 的 讨论 。 
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7.2.1 问题 
我 们 希望 函数 只 通过 关键 字 的 形式 接受 特定 的 参数 。 
7.2.2 解决 方案 


如 果 将 关键 字 参 数 放置 在 以 * 打 头 的 参数 或 者 是 一 个 单独 的 * 之 后 ， 这 个 特性 就 很 容易 
实现 。 示 例如 下 : 

















def recv(maxsize, *, block): 


"Receives a message’ 


pass 
recv (1024, True) # TypeError 
recv (1024, block=True) # Ok 

















这 项 技术 也 可 以 用 来 为 那些 可 接受 任意 数量 的 位 置 参 数 的 函数 来 指定 关键 字 参 数 。 示 
例如 下 : 


def mininum(*values, clip=None): 
m = min(values) 
if clip is not None: 
m = clip if clip > m else m 


return m 
minimum(1, 5, 2, -5, 10) # Returns -5 
minimum(1, 5, 2, -5, 10, clip=0) # Returns 0 


7.2.3 讨论 

当 指定 可 选 的 函数 参数 时 , keyword-only 参数 常常 是 一 种 提高 代码 可 读 性 的 好 方法 。 比 

如 ， 考 虑 下 面 这 个 调用 : 
msg = recv(1024, False) 

如 果 某 些 人 不 熟悉 recv0 的 工作 方式 , 他 们 可 能 会 搞 不 清楚 这 里 的 False 参数 到 底 表 


示 了 什么 意义 。 而 男 一 方面 ， 如 果 这 个 调用 可 以 写成 下 面 这 样 的 话 ， 那 就 显得 清晰 
ZT: 


msg = recv(1024, block=False) 


在 有 关 **kwargs 的 技巧 中 ， 使 用 keyword-only 参数 常常 也 是 很 可 取 的 。 因 为 当 用 户 请 
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求 帮 助 信息 时 ， 它 们 可 以 适时 地 显示 出 来 : 


>>> help (recv) 





Help on function recv in module main : 
recv (maxsize, *, block) 


Receives a message 
keyword-only 参数 在 更 加 高 级 的 上 下 文 环境 中 同样 也 能 起 到 作用 。 比 如 说 , 可 以 用 来 为 
函数 注入 参数 , CLE PRAIA args 和 **kwargs 接受 所 有 的 输入 参数 。 可 参见 9.11 节 中 
的 示例 。 


7.3 ”将 元 数据 信息 附加 到 函数 参数 上 


7.3.1 问题 


我 们 已 经 编写 好 了 一 个 函数 ， 但 是 希望 能 为 参数 附加 上 一 些 额 外 的 信息 ， 这 样 其 他 人 
可 以 对 函数 的 使 用 方法 有 更 多 的 认识 和 了 解 。 


7.3.2 解决 方案 
函数 的 参数 注解 可 以 提示 程序 员 该 函数 应 该 如 何 使 用 ， 这 是 很 有 帮助 的 。 比 如 说 ， 考 
虑 下 面 这 个 带 参 数 注解 的 函数 : 

def add(x:int, y:int) -> int: 

return x + y 

Python 解释 器 并 不 会 附加 任何 语法 意义 到 这 些 参数 注解 上 。 它 们 既 不 是 类 型 检查 也 不 
会 改变 Python 的 行为 。 但 是 ， 参 数 注解 会 给 其 他 阅读 源 代 码 的 人 带 来 有 用 的 提示 。 一 
些 第 三 方 工具 和 框架 可 能 也 会 为 注解 加 上 语法 含义 。 这 些 注解 也 会 出 现在 文档 中 : 

>>> help (add) 


Help on function add in module main : 
























































add(x: int, y: int) -> int 
>>> 


尽管 可 以 将 任何 类 型 的 对 象 作 为 函数 注解 附加 到 函数 定义 上 ( 比如， 数字、 字符 串 、 
实例 等 )， 但 是 通常 只 有 类 和 字符 串 才 显得 最 有 意义 。 

7.3.3 讨论 

函数 广 解 只 会 保存 在 函数 的 _annotations “属性 中 。 示 例如 下 : 


>>> add. annotations _ 


























{'y': <class 'int'>, 'return': <class 'int'>, 'x': <class 'int'>} 
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尽管 图 数 注解 有 着 许多 洪 在 的 用 途 ， 但 它们 的 主要 功能 也 许 就 是 丰富 一 下 文档 内 
容 了 。 因 为 Python 中 并 没有 类 型 声明 ， 所 以 如 果 只 是 简单 地 阅读 一 下 源 代码 就 想 
知道 打算 给 函数 传递 什么 对 象 常常 是 比较 困难 的 。 函 数 注解 就 可 以 带 给 我 们 更 多 
的 提示 。 

请 参见 9.20 节 中 的 高 级 示例 ， 那 个 例子 展示 了 如 何 利 用 函数 注解 来 实现 函数 重 载 。 








7.4 从 函数 中 返回 多 个 值 


7.4.1 问题 
我 们 想 从 函数 中 返回 多 个 值 。 


7.4.2 ”解决 方案 
要 从 函数 中 返回 多 个 值 ， 只 要 简单 地 返回 一 个 元 组 即 可 。 示 例如 下 : 


>>> def myfun(): 





return 1, 2, 3 


>>> a, b, c = myfun() 
>> a 

1 

>>> b 

2 

>>> c 

3 


7.4.3 ”讨论 
尽管 看 起 来 myFun0 返 回 了 多 个 值 , 但 实际 上 它 只 创建 了 一 个 元 组 而 已 。 这 看 起 来 有 点 
奇怪 ,但 是 实际 上 元 组 是 通过 逗号 来 组 成 的 ， 不 是 那些 圆 括 号 。 示 例如 下 : 


>>> a = (1, 2) # With parentheses 
































>>> a 
(1, 2) 

>>> b= 1, 2 # Without parentheses 
>>> b 

(1, 2) 

>>> 

















当 调用 的 函数 返回 了 元 组 ， 通 常会 将 结果 赋值 给 多 个 变量 ， 就 像 示例 中 那样 。 实 际 上 
这 就 是 简单 的 元 组 解 包 , 我 们 在 1.1 节 中 就 已 经 提 到 过 了 。 返回 的 值 也 可 以 只 赋 给 一 个 
单独 的 变量 : 














>>> x = myfun() 
>>> x 

(1, 2, 3) 

>>> 





这 样 x 就 代表 整个 元 组 。 


75 定义 带 有 默认 参数 的 函数 
7.5.1 问题 
我 们 想 定义 一 个 函数 或 者 方法 ， 其 中 有 一 个 或 多 个 参数 是 可 选 的 并 且 带 有 默认 值 。 


7.5.2 解决 方案 


表面 上 看 定义 一 个 带 有 可 选 参数 的 函数 是 非常 简单 的 一 一 只 需要 在 定义 中 为 参数 赋 
值 ， 并 确保 默认 参数 出 现在 最 后 即 可 。 示 例如 下 : 


def spam(a, b=42): 



































print (a, b) 
spam (1) # Ok. a=1, b=42 
spam(1, 2) # Ok. a=1, b=2 








如 果 默 认 值 是 可 变 容 器 的 话 ， 比 如 说 列表 、 集 合 或 者 字典 ,那么 应 该 把 None 作为 默认 
值 ， 代 码 应 该 像 这 样 编写 


# Using a list as a default value 
def spam(a, b=None): 
if b is None: 
b= [] 























如 果 不 打算 提供 一 个 默认 值 ， 只 是 想 编写 代码 来 检测 可 选 参数 是 否 被 赋予 了 某 个 特定 
的 值 ， 那 么 可 以 采用 下 面 的 惯用 手法 : 


_no value = object () 








def spam(a, b=_no_value): 
if b is no value: 
print ('No b value supplied') 

















这 个 函数 的 行为 是 这 样 的 : 








>>> spam(1) 

No b value supplied 

>>> spam(1, 2) #b=2 
>>> spam(1, None) # b = None 
>>> 


请 仔细 区 分 不 传递 任何 值 和 传递 None 之 间 的 区 别 。 


7.5.3 ”讨论 
定义 带 有 默认 参数 的 函数 看 似 很 容易 ， 但 其 实 并 不 像 看 到 的 那么 简单 。 


首先 ， 对 默认 参数 的 赋值 只 会 在 函数 定义 的 时 候 绑 定 一 次 。 可 用 下 面 这 个 例子 做 下 
试验 : 


>>> X = 42 

















>>> def spam(a, b=x): 
print (a, b) 


>>> spam(1) 

1 42 

>>> x = 23 # Has no effect 
>>> spam (1) 

1 42 

>>> 


注意 到 修改 变量 x 的 值 (x 被 作为 函数 参数 的 默认 值 ) 并 没有 对 函数 产生 任何 效果 。 这 
是 因为 默认 值 已 经 在 函数 定义 的 时 候 就 确定 好 了 o 


其 次 ， 给 默认 参数 赋值 的 应 该 总 是 不 可 变 的 对 象 ， 比 如 None, 、True 、False 、 数 字 或 者 
字符 串 。 特 别 要 注意 的 是 ， 绝 对 不 要 编写 这 样 的 代码 : 


def spam(a, b=[]): # NO! 





















































如 果 这 么 做 了 就 会 陷入 到 各 种 麻烦 之 中 。 如 果 默 认 值 在 函数 体 之 外 被 修改 了 ， 那 么 这 
种 修改 将 在 之 后 的 函数 调用 中 对 参数 的 默认 值 产生 持续 的 影响 。 示 例如 下 : 


>>> def spam(a, b=[]): 





print (b) 
return b 


>>> x = spam(1) 

>>> x 

[] 

>>> x.append (99) 

>>> x.append('Yow!') 





>>> X 


[99, 'Yow!'] 
>>> spam(1) # Modified list gets returned! 
[99, 'Yow!'] 


>>> 


这 很 可 能 不 是 所 期 望 的 结果 。 要 避免 出 现 这 种 问题 ， 最 好 按照 解决 方案 中 的 做 法 ， 使 
用 None 作为 默认 值 并 在 函数 体 中 增加 一 个 对 默认 值 的 检查 。 
当 检 测 默 认 人 参数 是 否 为 None 时 , 本 节 示 例 的 关键 之 处 在 于 对 is 操作 符 的 运用 。 有 时 候 
人 们 会 犯 这 样 的 错误 : 

def spam(a, b=None): 


if not b: # NO! Use 'b is None' instead 
b = [] 






































这 里 出 现 的 问题 在 于 尽管 None 会 被 判定 为 False, 可 是 还 有 许多 其 他 的 对 象 ( 比如 长 
度 为 0 的 字符 串 、 列 表 、 元 组 、 字 典 等 ) 也 存在 这 种 行为 。 因 此 ， 上 面 示例 给 出 的 条 
件 检测 会 将 某 些 特定 的 输入 也 判定 为 False， 从 而 错误 地 忽略 掉 这 些 输 入 值 。 示 例如 
Es 

>>> spam(1) # OK 

>>> x = [] 


>>> spam(1, x # Silent error. x value overwritten by default 


) 
>>> spam(1, 0) # Silent error. 0 ignored 
1 


>>> spam(1, '') # Silent error. '' ignored 


>>> 


本 节 最 后 讨论 的 内 容 更 加 巧妙 一 一 在 函数 中 检测 是 否 对 可 选 参数 提供 了 某 个 特定 值 
( 可 以 是 任意 值 )。 这 里 最 为 棘手 的 地 方 在 于 我 们 不 能 用 None、0 或 者 False 当做 默认 值 
来 检测 用 户 是 否 提 供 了 参数 (因为 所 有 这 些 值 都 是 完全 合法 的 参数 ， 用 户 极 有 可 能 将 
它们 当做 参数 )。 因 此 ， 需 要 用 其 他 的 办 法 来 检测 。 

要 解决 这 个 问题 ， 可 以 利用 objectO 创 建 一 个 独特 的 私有 实例 ， 就 像 解 决 方案 中 给 出 的 
那样 ( 即 ， 变 量 no_value )。 在 函数 中 ,可 以 用 这 个 特殊 值 来 同 用 户 提供 的 参数 做 相等 
性 检测 ， 以 此 判断 用 户 是 否 提供 了 参数 。 这 里 主要 考虑 到 对 于 用 户 来 说 ， 把 no value 
实例 作为 输入 参数 几乎 是 不 可 能 的 。 因 此 ， 如 果 要 判断 用 户 是 否 提供 了 某 个 参数 ， 
_no_value 就 成 了 一 个 可 以 用 来 安全 比较 的 值 。 

这 里 用 到 的 objectO 可 能 看 起 来 很 不 常见 。object 作为 Python 中 几乎 所 有 对 象 的 基 类 而 
存在 。 可 以 创建 object 的 实例 ， 但 是 它们 没有 任何 值得 注意 的 方法 ， 也 没有 任何 实例 
数据 ， 因 此 一 般 来 说 我 们 对 它 是 毫 无 兴趣 的 ( 因为 底层 缺少 ”dict 字典， 我 们 甚至 没 
法 为 它 设置 任何 属性 )。 唯 一 可 做 的 就 是 检测 相等 性 ， 这 也 使 得 它们 可 作为 特殊 值 来 使 
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用 ， 就 像 我们 给 出 的 解决 方案 中 那样 。 


7.6 ”定义 匿名 或 内 联 函 数 


7.6.1 问题 

我 们 需要 提供 一 个 短小 的 回调 函数 为 sort0 这 样 的 操作 所 用 , 但 是 又 不 想 通 过 def 语 
句 编 写 一 个 单行 的 函数 。 相 反 ， 我 们 更 希望 能 有 一 种 简便 的 方式 来 定义 “内 联 ” 式 
的 函数 。 


7.6.2 ”解决 方案 
像 这 种 仅仅 完成 表达 式 求 值 的 简单 函数 可 以 通过 lambda 表达 式 来 蔡 代 。 示 例如 下 ; 
>>> add = lambda x, y: x + y 
>>> add (2,3) 
5 
>>> add('hello', 'world') 


'helloworld' 
>>> 


这 里 用 到 的 lambda 表达 式 与 下 面 的 函数 定义 有 着 相同 的 功能 


>>> def add(x, y): 























return x + y 


>>> add(2,3) 
5 
>>> 


一 般 来 说 ，lambda 表达 式 可 用 在 如 下 的 上 下 文 环境 中 ， 比 如 排序 或 者 对 数据 进行 整理 时 : 


>>> names = ['David Beazley', 'Brian Jones', 
"Raymond Hettinger', 'Ned Batchelder'] 


>>> sorted(names, key=lambda name: name.split() [-1].lower()) 





['Ned Batchelder', 'David Beazley', 'Raymond Hettinger', 'Brian Jones'] 
>>> 


7.6.3 讨论 

尽管 lambda FIAT RE X AY PRA, (AAR ECE K o 基体 来 说 ， 我 们 只 能 
指定 一 条 单独 的 表达 式 ， 这 个 表达 式 的 结果 就 是 函数 的 返回 值 。 这 意味 着 其 他 的 语 
特性 比如 多 行 语句 、 条 件 分 支 、 迭代 和 异常 处 理 统统 都 无 法 使 用 。 
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不 使 用 lambda 表达 式 也 可 以 愉快 地 编写 出 大 量 的 Python 代码 。 但 是 ， 还 是 时 不 时 
会 在 一 些 程序 中 见 到 lambda 的 身影 ,比如 有 的 人 会 编写 很 多 微型 函数 来 对 各 种 表达 
式 进行 求 值 , 或 者 在 需要 用 户 提 供 回 调 函 数 的 时 候 , 这 时 lambda 表达 式 就 能 派 上 用 























场 了 。 


7.7 在 匿名 函数 中 绑 定 变量 的 值 
7.7.1 问题 











我 们 利用 lambda 表达 式 定 义 了 一 个 匿名 函数 , 但 是 也 希望 可 以 在 函数 定义 的 时 候 完 成 





对 特定 变量 的 绑 定 。 


7.7.2 解决 方案 
考虑 下 列 代码 的 行为 : 


>>> x = 10 

>>> a = lambda y: x + y 
>>> x = 20 

>>> b = lambda y: x + y 
>>> 


现在 请 问 自己 一 个 问题 ,a(10) 和 b(10) 的 结果 是 多 少 ? 如 果 觉 得 结果 是 20 和 30 的 话 ， 


那 就 错 了 : 


>>> a(10) 
30 
>>> b(10) 
30 
>>> 


ou 




















这 里 的 问题 在 于 lambda 表达 式 中 用 到 的 x 是 一 个 自由 变量 ， 











是 定义 的 时 候 绑 定 。 因 此 ，lambda 表达 式 中 x 的 值 应 该 
的 值 是 多 少 就 是 多 少 。 示 例如 下 : 


>>> x = 15 
>>> a(10) 

25 

>>> x = 3 

>>> a(10) 

13 

>>> 
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在 运行 时 才 进 行 绑 定 而 不 
在 执行 时 确定 的 ， 执 行 时 x 


如 果 和 希望 匿名 函数 可 以 在 定义 的 时 候 绑 定 变量 ， 并 保持 值 不 变 ， 那 么 可 以 将 那个 值 作 
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为 默认 参数 实现 ， 就 像 下 面 这 样 : 


>>> x = 10 

>>> a = lambda y, x=x: x + y 
>>> x = 20 

>>> b = lambda y, x=x: x + y 
>>> a(10) 

20 

>>> b(10) 

30 

>>> 


7.7.3 讨论 

本 节 中 提 到 的 问题 一 般 比 较 容易 出 现在 那些 对 lambda 函数 过 于 “聪明 ”的 应 用 上 。 比 
方 说 , 通过 列表 推导 来 创建 一 列 lambda 表达 式 , 或 者 在 一 个 循环 中 期 望 lambda 表达 式 
能 够 在 定义 的 时 候 记 住 兴 代 变量 。 示 例如 下 : 


>>> funcs = [lambda x: x+n for n in range(5)] 


























>>> for f in funcs: 





print (f (0) ) 
我 们 可 以 注意 到 所 有 的 函数 都 认为 n 的 值 为 4, 也 就 是 迭代 中 的 最 后 一 个 值 。 我 们 再 和 


下 面 的 代码 做 下 对 比 : 


>>> funcs = [lambda x, n=n: x+n for n in range(5)] 
>>> for f in funcs: 
print (f (0) ) 


e WW NBEO.» 





可 以 看 到 ， 现 在 函数 可 以 在 定义 的 时 候 捕 获 到 mn 的 值 了 。 

















7.8 让 市 有 N 个 参数 的 可 调用 对 和 象 以 较 少 的 参数 
形式 调用 


7.8.1 问题 

我 们 有 一 个 可 调用 对 象 可 能 会 以 回调 函数 的 形式 同 其 他 的 Python 代码 交互 。 但 是 这 个 
可 调用 对 象 需要 的 参数 过 多 ， 如 果 直 接 调 用 的 话 会 产生 异常 。 

7.8.2 解决 方案 

如 果 需 要 减少 函数 的 参数 数量 , 应 该 使 用 functools.partial0。 函数 partial0 人 允许 我 们 给 一 
个 或 多 个 参数 指定 固定 的 值 ， 以 此 减少 需要 提供 给 之 后 调用 的 参数 数量 。 为 了 说 明 这 
个 过 程 ， 假 设 有 这 人 么 一 个 函数 : 


def spam(a, b, c, d): 
print (a, b, c, d) 


现在 考虑 用 partial0) 来 对 参数 赋 固 定 的 值 : 


>>> from functools import partial 





























>>> sl = partial(spam, 1) #a=1 
>>> s1(2, 3, 4) 
234 
>>> sl(4, 5, 6) 
45 6 
>>> s2 = partial(spam, d=42) # d = 42 
>>> s2(1, 2, 3) 
2 3 42 
>>> s2(4, 5, 5) 
455 42 
>>> s3 = partial(spam, 1, 2, d=42) #a=1, b=2, d = 42 
>>> $3 (3) 
2 3 42 
>>> $3 (4) 
2 4 42 
>>> $3(5) 
2 5 42 
>>> 
我 们 可 以 观察 到 partial0 对 特定 的 参数 赋 了 固定 值 并 返回 了 一 个 全 新 的 可 调用 对 象 。 这 
个 新 的 可 调用 对 象 仍然 需要 通过 指定 那些 未 被 赋值 的 参数 来 调用 。 这 个 新 的 可 调用 对 

















象 将 传递 给 partial0 的 固定 参数 结合 起 来 ， 统 一 将 所 有 的 参数 传递 给 原始 的 函数 。 
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7.8.3 讨论 


本 节 提 到 的 技术 对 于 将 看 似 不 兼容 的 代码 结合 起 来 使 用 是 大 有 神 益 的 。 下 面 我 们 用 一 
系列 的 示例 来 帮助 理解 。 


第 一 个 例子 是 ， 假 设 有 一 列 以 元 组 (x,，y) 来 表示 的 点 坐标 。 可 以 用 下 面 的 函数 来 计算 两 
点 之 间 的 距离 : 


points = [ (1, 2), (3, 4), (5, 6), (7, 8) ] 











import math 
def distance(pl, p2): 
xl, yl = pl 
x2, y2 = p2 
return math.hypot (x2 - x1, y2 - y1) 


现在 假设 想 根据 这 些 点 之 间 的 距离 来 对 它们 排序 。 列 表 的 sort() 方 法 可 接受 一 个 key 参 
数 ， 它 可 用 来 做 自 定 义 的 排序 处 理 。 但 是 它 只 能 和 接受 单 参数 的 函数 一 起 工作 ( 因此 
和 distanceO 是 不 兼容 的 )。 下 面 我 们 用 partical0 来 解决 这 个 问题 : 


>>> pt = (4, 3) 





























>>> points.sort (key=partial (distance, pt) ) 
>>> points 

[(3, 4), (1, 2), (5, 6), (7, 8)] 

>>> 








我 们 可 以 对 这 个 思路 进行 扩展 ，partial0 常 常 可 用 来 调整 其 他 库 中 用 到 的 回调 函数 的 参 
数 签 名 。 比 方 说 ， 这 里 有 一 段 代 码 利用 multiprocessing 模块 以 异步 方式 计算 某 个 结 

并 将 这 个 结果 传递 给 一 个 回调 函数 。 该 回调 函数 可 接受 这 个 结果 以 及 一 个 可 选 的 日 志 
参数 ; 











def output _ result (result, log=None): 
if log is not None: 


log.debug('Got: %r', result) 
# A sample function 
def add(x, y): 


return x + y 


if name == ' main ': 





import logging 
from multiprocessing import Pool 
from functools import partial 


logging. basicConfig(level=logging. DEBUG) 
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log = logging.getLogger('test') 


p = Pool() 

p.apply_async(add, (3, 4), callback=partial(output_result, log=log) ) 
p.close() 

p.join() 





当 我 们 在 apply_asyncO 中 指定 回调 函数 时 ， 和 额外 的 日 志 参 数 是 通过 partical(0) 来 指定 
AY. multiprocessing 模块 对 于 这 些 细节 根本 一 无 所 知 一 一 它 只 通过 单个 参数 来 调用 





回调 函数 。 





作为 类 似 的 例子 ， 考 虑 一 下 我 们 在 编写 网 络 服务 噩 程序 时 面 对 的 问题 。 有 了 socketserver 
模块 ， 这 一 切 相对 来 说 都 变 得 很 简单 了 。 比 方 说 ， 下 面 有 一 个 简单 的 echo 服务 程序 : 




















from socketserver import StreamRequestHandler, TCPServer 


class EchoHandler (StreamRequestHandler): 
def handle (self): 
for line in self.rfile: 
self.wfile.write(b'GOT:' + line) 


serv = TCPServer(('', 15000), EchoHandler) 


serv.serve_ forever () 


现在 , 假设 我 们 想 在 EchoHandler 类 中 增加 一 个 ”init 0 方法 , 让 它 接受 一 
置 参 数 。 示 例如 下 : 


class EchoHandler (StreamRequestHandler): 
# ack is added keyword-only argument. *args, **kwargs are 
# any normal parameters supplied (which are passed on) 
def init (self, *args, ack, **kwargs): 
self.ack = ack 
super(). init __(*args, **kwargs) 
def handle(self): 
for line in self.rfile: 


self.wfile.write(self.ack + line) 





如 果 做 了 上 述 改 动 ， 现 在 就 会 发 现 没 法 简单 地 将 其 插入 到 TCPServer 类 中 了 。 





你 会 发 现代 码 会 产生 如 下 的 异常 : 


Exception happened during processing of request from ('127.0.0.1', 59834) 


Traceback (most recent call last): 


TypeError: _ init () missing 1 required keyword-only argument: 'ack' 


初 看 上 去 ， 除 了 修改 socketserver 的 源 代 码 或 者 采用 一 些 拐弯 抹 角 的 技法 外 ， 


个 额外 的 配 


事实 上 


似乎 没 别 
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的 办 法 修正 这 份 代码 了 。 但 是 ， 利 用 partical0 就 能 轻松 解决 这 个 问题 。 只 用 在 partial0 
中 提供 ack 的 参数 值 即 可 ， 就 像 下 面 这 样 : 
from functools import partial 


serv = TCPServer(('', 15000), partial (EchoHandler, ack=b'RECEIVED:')) 


serv.serve forever () 
在 这 个 例子 里 ，_init 0 方法 中 对 参数 ack 的 指定 看 起 来 有 些 滑 移 , 但 它 是 以 keyword- 
only 参数 的 形式 来 指定 的 。 有 关 keyword-only 参数 的 讨论 可 以 在 7.2 节 中 找到 。 


有 时 候 也 可 以 通过 lambda 表达 式 来 蔡 代 partial0。 比如 , 上 面 这 几 个 例子 也 可 以 采用 这 
样 的 语句 来 实现 : 


points.sort (key=lambda p: distance(pt, p)) 





























p.apply_async(add, (3, 4), callback=lambda result: output_result (result, 1og) ) 


serv = TCPServer(('', 15000), 
lambda *args, **kwargs: EchoHandler(*args, 
ack=b'RECEIVED:', 
**kwargs) ) 


LOPS ABIES CVE, (EAR, ， 而 且 也 让 人 觉得 读 起 来 很 困惑 。 使 用 
partial0 会 使 得 你 的 意图 更 加 明确 ( 即 ， 为 某 些 参数 提供 默认 值 )。 











7.9 用 函数 替代 只 有 单个 方法 的 类 


7.9.1 问题 

我 们 有 一 个 只 定义 了 一 个 方法 的 类 (KR init 0 方法 外 ), 但 是 ,为 了 简化 代码 ,我 们 
更 希望 能 够 只 用 一 个 简单 的 函数 来 替代 。 

7.9.2 ”解决 方案 


在 许多 情况 下 ， 只 有 单个 方法 的 类 可 以 通过 闭 包 (closure ) 将 其 转换 成 函数 。 考 虑 下 面 
这 个 例子 ， 这 个 类 人 允许 用 户 通过 某 种 模板 方案 来 获取 URL, 


from urllib.request import urlopen 

















class UrlTemplate: 
def init__(self, template): 
self.template = template 
def open(self, **kwargs) : 
return urlopen(self.template.format_map (kwargs) ) 
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# Example use. Download stock data from yahoo 
yahoo = UrlTemplate('http://finance.yahoo.com/d/quotes.csv?s={names}&f={fields}') 
for line in yahoo.open(names='IBM,AAPL,FB', fields='sllclv'): 

print (line.decode('utf-8') ) 


这 个 类 可 以 用 一 个 简单 的 函数 来 取代 : 


def urltemplate (template): 
def opener (**kwargs): 
return urlopen (template. format_map (kwargs) ) 


return opener 


# Example use 
yahoo = urltemplate('http://finance.yahoo.com/d/quotes.csv?s={names}&f={fields}') 
for line in yahoo (names='IBM,AAPL,FB', fields='sliclv'): 

print (line.decode('utf-8') ) 


7.9.3 讨论 

在 许多 情况 下 ， 我 们 会 使 用 只 有 单个 方法 的 类 的 唯一 原因 就 是 保存 额外 的 状态 给 类 方 
法 使 用 。 比 方 说 ，UrlTemplate 类 的 唯一 目的 就 是 将 template 的 值 保存 在 某 处 ， 这 样 就 
可 以 在 open0 方 法 中 用 上 它 了 。 

按照 我 们 给 出 的 解决 方案 , 使 用 网 套 函 数 或 者 说 闭 包 常 常会 显得 更 加 优雅 。 简 单 来 说 ， 
闭 包 就 是 一 个 函数 ， 但 是 它 还 保存 着 额外 的 变量 环境 ， 使 得 这 些 变 量 可 以 在 函数 中 使 
用 。 闭 包 的 核心 特性 就 是 它 可 以 记 住 定义 闭 包 时 的 环境 。 因 此 ， 在 这 个 解决 方案 中 ， 
opener) PAŽE VCZ% template 的 值 ， 然 后 在 随后 的 调用 中 使 用 该 值 。 

无 论 何 时 ， 当 在 编写 代码 中 遇 到 需要 附加 额外 的 状态 给 函数 时 ， 请 考虑 使 用 闭 包 。 
比 起 将 函数 放 入 一 个 “全 副 武 装 ” 的 类 中 ， 基 于 闭 包 的 解决 方案 通常 更 加 简短 也 更 
加 优雅 。 


7.10 在 回调 函数 中 携 市 额外 的 状态 


7.10.1 问题 

我 们 正在 编写 需要 使 用 回调 函数 的 代码 ( 比如 ， 事 件 处 理 例 程 、 完 成 回调 等 ), 但 是 希 
望 回调 函数 可 以 携带 额外 的 状态 以 便 在 回调 函数 内 部 使 用 。 
7.10.2 ”解决 方案 

本 节 中 提 到 的 对 回调 函数 的 应 用 可 以 在 许多 库 和 框架 中 找到 一 一 尤其 是 那些 和 异步 处 
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理 相关 的 库 和 框架 。 为 了 说 明和 测试 的 目的 ， 我 们 首先 定义 下 面 的 函数 ， 它 会 调用 一 
个 回调 函数 : 


def apply_async(func, args, *, callback): 





# Compute the result 
result = func(*args) 


# Invoke the callback with the result 
callback (result) 


类 似 这 样 的 代码 可 能 会 完成 各 种 高 级 的 处 理 任 务 ， 这 会 涉及 线程 、 进 
程 和 定时 器 等 ， 但 我 们 这 里 主要 关注 的 不 是 这 些 。 相 反 ， 我 们 只 是 把 注意 力 集中 在 对 
回调 函 站 的 调用 上 。 下 面 的 示例 展示 了 上 述 代 袜 应 该 如 何 使 用 : 


>>> def print result (result): 


























print ('Got:', result) 


>>> def add(x, y): 
return x + y 


>>> apply_async(add, (2, 3), callback=print_result) 

Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=print_result) 
Got: helloworld 


我 们 会 注意 到 函数 print result0 仅 接受 一 个 单独 的 参数 ， 也 就 是 result。 这 里 并 没有 传 
和 人 其 他 的 信息 到 函数 中 。 有 时 候 当 我 们 希望 回调 函数 可 以 同 其 他 变量 或 者 部 分 环境 进 
行 交 互 时 ， 缺 乏 这 类 信息 就 会 带 来 问题 


一 种 在 回调 函数 中 携 额外 信息 的 方法 是 使 用 绑 定 方法 ( bound-method ) 而 不 是 普通 
的 函数 。 比 如 ， 下 面 这 个 类 保存 了 一 个 内 部 的 序列 号 码 ， 每 当 接 收 到 一 个 结果 时 就 递 
增 这 个 号 码 。 


class ResultHandler: 
def init (self): 
self.sequence = 0 
def handler (self, result): 


self.sequence += 1 









































print ('[{}] Got: {}'.format(self.sequence, result)) 


要 使 用 这 个 类 ， 可 以 创建 一 个 类 实例 并 将 绑 定 方法 handler 当做 回调 函数 来 用 : 


>>> r = ResultHandler () 





>>> apply async (add, (2, 3), callback=r.handler) 
[1] Got: 5 





>>> apply_async(add, ('hello', '‘world'), callback=r.handler) 
[2] Got: helloworld 
>>> 




















作为 类 的 替代 方案 ， 也 可 以 使 用 闭 包 来 捕获 状态 。 示 例如 下 : 


def make handler(): 
sequence = 0 
def handler (result): 
nonlocal sequence 
sequence += 1 
print ('[{}] Got: {}'.format (sequence, result) ) 


return handler 


下 面 是 使 用 闭 包 的 例子 : 


>>> handler = make handler () 

>>> apply _async(add, (2, 3), callback=handler) 

[1] Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=handler) 
[2] Got: helloworld 

>>> 


除 此 之 外 还 有 一 种 方法 ， 有 时 候 可 以 利用 协 程 (coroutine ) 来 完成 同样 的 任务 : 


def make handler(): 
sequence = 0 
while True: 
result = yield 
sequence += 1 
print ('[{}] Got: {}'.format (sequence, result) ) 


对 于 协 程 来 说 ， 可 以 使 用 它 的 send() 方 法 来 作为 回调 函数 ， 就 像 下 面 这 样 : 


>>> handler = make handler () 

>>> next (handler) # Advance to the yield 

>>> apply_async(add, (2, 3), callback=handler.send) 

[1] Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=handler.send) 
[2] Got: helloworld 

>>> 











最 后 但 也 同样 重要 的 是 ， 也 可 以 通过 额外 的 参数 在 回调 函数 中 携带 状态 ， 然 后 用 partial0 
来 处 理 参数 个 数 的 问题 ( 见 7.8 节 )。 示 例如 下 : 


>>> class SequenceNo: 
def init (self): 
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self.sequence = 0 


>>> def handler (result, seq): 
seq.sequence t= 1 
print ('[{}] Got: {}'.format (seq.sequence, result) ) 


>>> seq = SequenceNo() 

>>> from functools import partial 

>>> apply_async(add, (2, 3), callback=partial (handler, seq=seq) ) 

[1] Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=partial (handler, seq=seq) ) 
[2] Got: helloworld 

>>> 


7.10.3 ”讨论 
基于 回调 函数 的 软件 设计 常常 会 面临 使 代码 陷入 一 团 乱 麻 的 风险 。 部 分 原因 是 因为 
从 代码 发 起 初始 请 求 开始 到 回调 执行 的 这 个 过 程 中 ， 回 调 函 数 常常 是 与 这 个 环境 相 
脱离 的 。 因 此 ， 在 发 起 请 求 和 处 理 结果 之 间 的 执行 环境 就 于 失 了 。 如 果 想 让 回调 函 
数 在 涉及 多 个 步 又 的 任务 处 理 中 能 够 继续 执行 ， 就 必须 清楚 应 该 如 何 保存 和 还 原 相 
关 的 状态 。 


主要 有 两 种 方法 可 用 于 捕获 和 携带 状态 。 可 以 在 类 实例 上 携带 状态 〈 将 状态 附加 到 绑 
定 方法 上 ), 也 可 以 在 闭 包 中 携带 状态 。 这 两 种 方法 中 , 闭 包 可 能 要 显得 更 轻 量 级 一 些 ， 
而 且 由 于 闭 包 也 是 由 函数 构建 的 ， 这 样 显得 会 更 加 自然 。 这 两 种 方法 都 可 以 自动 捕获 
所 有 正在 使 用 的 变量 。 因 此 , 这 就 使 得 我 们 不 必 担 心 哪个 具体 的 状态 需要 保存 起 来 ( 根 
据 代 码 自 动 决定 哪些 需要 保存 )。 


如 果 使 用 闭 包 , 那么 需要 对 可 变 变 量 多 加 留意 。 在 给 出 的 解决 方案 中 , nonlocal 声明 用 来 
表示 变量 sequence 是 在 回调 函数 中 修改 的 。 没 有 这 个 声明 ， 将 得 到 错误 提示 。 


将 协 程 用 作 回 调 函 数 的 有 趣 之 处 在 于 这 种 方式 和 采用 闭 包 的 方案 关系 紧密 。 从 某 种 意 
义 上 说 ， 协 程 甚至 更 为 清晰 ， 因 为 这 里 只 出 现 了 一 个 单独 的 函数 。 此 外 ， 变 量 都 可 以 
自由 地 进行 修改 ， 不 必 担 心 nonlocal 声明 。 可 能 存在 的 缺点 在 于 人 们 对 协 程 的 理解 程 
度 不 如 其 他 的 Python 特性 。 使 用 协 程 时 还 有 几 个 小 技巧 需要 掌握 ， 比 如 在 使 用 协 程 前 
需要 先 对 其 调用 一 次 next(O)， 这 在 实践 中 常常 容易 忘记 。 不 过 , 协 程 还 有 其 他 的 潜在 用 
途 ， 比 如 定义 内 联 的 回调 函数 (在 下 一 节 中 讲解 )。 

如 果 所 有 需要 做 的 就 是 在 回调 函数 中 传人 额外 的 值 ,那么 最 后 提 到 的 那个 有 关 partial() 
的 技术 是 很 管用 的 。 有 时 候 我 们 也 会 看 到 用 lambda 表达 式 来 实现 同样 的 功能 : 

>>> apply_async(add, (2, 3), callback=lambda r: handler(r, seq)) 


[1] Got: 5 
>> 
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要 查看 更 多 的 示例 请 参见 7.8 节 。 在 那 一 他 中 我 们 展示 了 如 何 利 用 partial0 来 修改 函数 
的 参数 签名 。 


7.11 内 联 回调 函数 


7.11.1 问题 

我 们 正在 编写 使 用 回调 函数 的 代码 ， 但 是 担心 小 型 函数 在 代码 中 大 肆 泛 滥 ， 程 序 的 控 
制 流 会 因此 而 失控 。 我 们 希望 能 有 某 种 方法 使 代码 看 起 来 更 像 一 般 的 过 程式 步 又 。 
7.11.2 解决 方案 


我 们 可 以 通过 生成 右 和 协 程 将 回调 函数 内 联 到 一 个 函数 中 。 为 了 说 明 ， (Be 
数 会 按照 下 面 的 方式 调用 回调 函数 ( 参见 7.10 节 ): 


def apply_async(func, args, *, callback): 















































# Compute the result 
result = func(*args) 


# Invoke the callback with the result 
callback (result) 


现在 看 看 接 下 来 的 支持 代码 ， 这 里 涉及 一 个 Async 类 和 inlined_asyne 装饰 器 : 


from queue import Queue 





from functools import wraps 


class Async: 
def init (self, func, args): 
self.func = func 
self.args = args 


def inlined_async (func): 
@wraps (func) 
def wrapper (*args): 
f = func(*args) 
result_queue = Queue () 
result_queue.put (None) 
while True: 
result = result_queue.get () 
try: 
a = f.send(result) 
apply _async(a.func, a.args, callback=result_queue.put) 
except StopIteration: 





break 
return wrapper 








这 两 段 代码 允许 我 们 通过 yield 语 


def add(x, y): 
return x + y 


@inlined_async 

def test(): 
r = yield Async(add, (2, 3)) 

print (r) 

r = yield Async (add, 

print (r) 

for n in range(10): 
r = yield Async (add, 
print (r) 

print ('Goodbye') 


如 果 调 用 test), 274 


5 
helloworld 


16 
18 
Goodbye 
AE bs 


除了 那个 特殊 的 装饰 
函数 (它们 只 是 隐藏 在 幕后 了 )。 


7.11.3 








讨论 


句 将 回调 函数 变 为 内 联 式 的 ， 


("hello', 'world') 


(n, n)) 


得 到 这 样 的 输出 结 


示例 如 下 : 


器 和 对 yield 的 使 用 之 外 ,我 们 会 发 现代 码 中 根本 就 没有 出 现 回 调 


本 闻 将 真正 考验 一 下 读者 对 回调 函数 、 生 成 器 以 及 程序 控制 流 方面 的 掌控 情况 。 





首先 ， 在 涉及 回调 函数 的 代码 中 ， 
后 某 个 时 刻下 
的 apply_asyncO 函 数 对 执行 回调 函 

会 复杂 得 多 ( 涉及 线程 、 进 程 、 




















H 














问题 的 关键 就 在 于 当前 的 计算 会 被 挂 








生得 到 恢复 。 当 计算 得 到 恢复 时 ， 回 调 函 数 将 得 以 继续 处 理 
的 说 明 ,尽管 在 现实 世界 中 这 





数 的 关键 部 分 做 了 人 简 自 
事件 处 理 例 程 等 )。 





oy 示例 中 
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将 计算 挂 起 之 后 再 恢复 ， 这 个 思想 非常 自然 地 同 生成 器 函数 对 应 了 起 来 。 有 具体 来 说 就 
是 yield 操作 使 得 生成 器 函数 产生 出 一 个 值 然后 就 挂 起 ， 后 续 调 用 生成 器 的 _next 0 
或 者 send0 方 法 会 使 得 它 再 次 启动 。 

鉴于 此 ,本 市 的 核心 就 在 inline_async0 装 饰 器 函数 中 。 关 键 点 就 是 对 于 生成 器 函数 的 
所 有 yield 语句 装饰 器 都 会 逐条 进行 跟踪 ， 一 次 一 个 。 为 了 做 到 这 点 ， 我 们 创建 了 一 
个 队列 用 来 保存 结果 ， 初 始 时 用 None 来 填充 。 之 后 通过 循环 将 结果 从 队列 中 取出 ， 
然后 发 送 给 生成 器 ， 这 样 就 会 产生 下 一 次 yield， 此 时 就 会 接收 到 Async 的 实例 。 然 
后 在 循环 中 查找 函数 和 参数 ， 开 始 异步 计算 apply_async(0。 但 是 ,这 个 过 程 中 最 为 隐 
项 的 部 分 就 在 于 这 里 没有 使 用 普通 的 回调 函数 ， 回 调 过 程 被 设 定 到 队列 的 put0 方 法 
中 了 。 

此 时 应 该 可 以 精确 描述 到 底 都 发 生 了 些 什 么 。 主 循环 会 迅速 回 到 顶层 ， 并 在 队列 中 执 
行 一 个 get0 操 作 。 如 果 有 数据 存在 ， 那 它 就 一 定 是 由 put0 回 调 产 生 的 结果 。 如 果 什 么 
都 没有 ， 操 作 就 会 阻塞 ， 等 竺 之 后 某 个 时 刻 会 有 结果 到 来 。 至 于 结果 要 如 何 产生 ， 这 取 
决 于 apply_asyncO 函 数 的 实现 。 

如 果 对 这 些 疯 狂 的 东西 能 否 正常 工作 抱 有 怀疑 ， 可 以 结合 多 进程 库 让 异步 操作 在 单独 
的 进程 中 执行 ， 以 此 测试 该 方案 : 


if name == ' main ': 



















































































import multiprocessing 
pool = multiprocessing.Pool () 


apply_async = pool.apply_async 


# Run the test function 
test () 


我 们 会 发 现 这 个 方案 的 确 能 正常 工作 ,但 是 要 理 清 这 其 中 的 控制 流程 可 能 需要 喝 掉 不 
少 咖啡 了 。 

将 精巧 的 控制 流 隐 藏 在 生成 右 函 数 之 后 ， 这 种 做 法 可 以 在 标准 库 以 及 第 三 方 包 中 找到 。 
比如 说 ，contextlib 模块 中 的 @contextmanager 装饰 器 也 使 用 了 类 似 的 令 人 费解 的 技巧 ， 
将 上 下 文 管理 器 的 入 口 点 和 出 口 点 通过 一 个 yield 语句 粘 合 在 了 一 起 。 著 名 的 Twisted 
库 ( http://twistedmatrix.com ) 中 也 有 着 类 似 的 内 联 回调 技巧 。 


























7.12 访问 定义 在 闭 包 内 的 变量 


7.12.1 问题 
我 们 希望 通过 函数 来 扩展 闭 包 ,使 得 在 闭 包 内 层 定义 的 变量 可 以 被 访问 和 修改 。 
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7.12.2 ”解决 方案 











一 般 来 说 ， 在 闭 包 内 层 定义 的 变量 对 于 外 界 来 说 完全 是 隔离 的 。 但 是 ， 


RKR (accessor function， 即 getter/setter 方法 








上 来 提供 对 内 层 变量 的 访问 支持 。 示 例如 下 : 
def sample(): 
n=0 
# Closure function 
def func(): 
print ('n=', n) 


# Accessor methods for n 
def get_n(): 
return n 


def set_n(value): 
nonlocal n 


n = value 


# Attach as function attributes 
func.get_n = get_n 

func.set_n = set_n 

return func 








下 面 是 使 用 这 份 代码 的 示例 : 


>>> f = sample() 
>>> fl() 

n= 0 

>>> f.set_n(10) 
>>> fl() 

n= 10 

>>> f.get_n() 

10 

>>> 


7.12.3 ”讨论 














可 以 通过 编写 
) 并 将 它们 作为 函数 属性 附加 到 闭 包 























这 里 主要 用 到 了 两 个 特性 使 得 本 节 讨 论 的 技术 得 以 成 功 实施 。 首 先 , nonlocal 声明 使 得 


& 


写 函数 来 修改 内 层 变 量 成 为 可 能 。 其 次 ， 函 数 
加 到 闭 包 函数 上 ， 它 们 工作 起 来 很 像 实例 的 方法 




















对 本 节 提 到 的 技术 稍 作 扩展 就 可 以 让 闭 包 模拟 成 类 实例 。 我 们 所 要 做 的 就 是 将 








属性 能 够 将 存 取 函 数 以 直接 的 方式 附 





( 尽管 这 里 并 没有 涉及 类 )。 

















内 层 函 


数据 贝 到 一 个 实例 的 字典 中 然后 将 它 返 回 。 示 例如 下 : 








import sys 
class ClosureInstance: 
def init__(self, locals=None): 
if locals is None: 


locals = sys._getframe(1).f_locals 


# Update instance dictionary with callables 
self. dict__.update((key,value) for key, value in locals.items() 
if callable(value) ) 


# Redirect special methods 
def len (self): 
return self. dict [' len ']() 


# Example use 
def Stack(): 


items = [] 


def push (item): 


items.append (item) 


def pop(): 
return items.pop() 


def len (): 
return len (items) 
return ClosureInstance() 


下 面 的 交互 式 会 话说 明了 这 种 方法 确实 能 完成 任务 : 


>>> s = Stack () 

>>> s 
<_main_.ClosureInstance object at 0x10069ed10> 
>>> s.push(10) 

>>> s.push (20) 

>>> s.push('Hello') 
>>> len(s) 

3 

>>> s.pop() 

"Hello' 

>>> s.pop () 

20 

>>> s.pop() 

10 

>>> 
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有 趣 的 是 ， 这 份 代码 运 行 起 来 比 使 用 一 个 普通 的 类 定义 要 稍微 快 一 些 。 比 如 ， 我 们 可 
能 会 用 下 面 这 个 类 来 做 对 比 测试 : 
class Stack2: 


def init (self): 


self.items = [] 





def push(self, item): 


self.items.append (item) 


def pop(self): 
return self.items.pop() 


def len (self): 
return len(self.items) 


如 果 进 行 对 比 测试 ， 将 得 到 类 似 如 下 的 结果 : 


>>> from timeit import timeit 

>>> # Test involving closures 

>>> s = Stack() 

>>> timeit('s.push(1);s.pop()', 'from main import s') 
0.9874754269840196 

>>> # Test involving a class 

>>> s = Stack2() 

>>> timeit('s.push(1);s.pop()', 'from _main_ import s') 
1.0707052160287276 

>>> 


我 们 可 以 看 到 ， 采 用 闭 包 的 版 本 要 快 大 约 8%。 测 试 中 的 大 部 分 时 间 都 花 在 对 实例 变量 
的 直接 访问 上 ， 闭 包 要 更 快 一 些 ， 这 是 因为 不 用 涉及 额外 的 self 变量 。 

Raymond Herringer 在 这 个 思路 的 基础 上 设计 出 了 一 种 更 加 “ 想 怖 ”的 变种 。 但 是 ,在 
自己 的 代码 中 应 该 对 这 种 奇 技 淫 巧 持 谨慎 的 态度 。 请 注意 ， 相 上 比 一 个 真正 的 类 ， 这 种 
方法 是 相当 怪异 的 。 比 如 ， 像 继承 、 属 性 、 描 述 符 或 者 类 方法 这 样 的 主要 特性 在 这 种 
方法 中 都 是 无 法 使 用 的 。 我 们 还 需要 玩 一 些 花招 才能 让 特殊 方法 正常 工作 ( 比如 ， 参 
Æ ClosureInstance 中 对 len 0 的 实现 )。 

最 后 ， 这 么 做 会 使 得 阅读 你 代码 的 人 犯 糊涂 。 他 们 会 想 知道 这 么 做 看 起 来 和 一 个 普 ; 
的 类 定义 相 比 有 什么 区 别 ( 当然 了 ， 他 们 也 想 知 道 为 什么 这 么 做 会 运行 的 更 快 一 些 )。 
尽管 如 此 ， 这 仍然 是 个 有 趣 的 例子 ， 它 告诉 我 们 对 闭 包 内 部 提供 访问 机 制 能 够 实现 出 
什么 样 的 功能 。 

从 全 局 的 角度 考虑 ， 为 闭 包 增加 方法 可 能 会 有 着 更 多 的 实际 用 途 ， 比 如 我 们 想 重 置 内 
部 状态 、 刷 新 缓冲 区 、 清 除 缓存 或 者 实现 某 种 形式 的 反馈 机 制 ( feedback mechanism )。 
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本 章 的 重点 是 为 大 家 介绍 一 些 与 类 定义 相关 的 常见 编程 模式 。 主 题 包括 让 对 象 支 持 常 见 
的 Python 特性 、 特 殊 方 法 的 使 用 、 封 装 、 继 承 、 内 存 管 理 以 及 一 些 有 用 的 设计 模式 。 


8.1 修改 实例 的 字符 串 表 示 


8.1.1 问题 

我 们 想 修改 打印 实例 所 产生 的 输出 ， 使 输出 结果 能 更 有 意义 。 

8.1.2 解决 方案 

要 修改 实例 的 字符 串 表 示 ， 可 以 通过 定义 _str_0 和 _ repr_() 方 法 来 实现 。 示 例如 下 ; 


class Pair: 























def init (self, x, y): 

self.x = x 

self.y =y 
def repr (self): 

return 'Pair({0.x!r}, {0.y!r})'.format (self) 
def str (self): 

return '({0.x!s}, {0.y!s})'.format (self) 


特殊 方法 _repr_0 返 回 的 是 实例 的 代码 表示 (code representation )， 通 常 可 以 用 它 返回 
的 字符 串 文本 来 重新 创建 这 个 实例 WER reprO 函 数 可 以 用 来 返回 这 个 字符 串 ， 当 
缺少 交互 式 解 释 环境 时 可 用 它 来 检查 实例 的 值 。 特殊 方法 _ str_0 将 实例 转换 为 一 个 字 
符 串 ， 这 也 是 由 strO All printO 函 数 所 产生 的 输出 。 示 例如 下 : 


























即 满足 obj == eval(repr(obj))。 一 一 译 者 注 








>>> p = Pair(3, 4) 


>>> p 
Pair(3, 4) # _repr_() output 
>>> print (p) 

(3, 4) # _str_() output 
>>> 











ASS 2 HH ASPIRE AN TERE Fs AA aT A NY A AE FAS Te] AEB Be JÈ 
其 是 , 特殊 的 格式 化 代码 !r 表示 应 该 使 用 _repr_0 的 输出 ,而 不 是 默认 的 _ str_0。 我 
们 可 以 在 前 文 给 出 的 Pair 类 上 做 做 实验 : 


>>> p = Pair(3, 4) 






































>>> print ('p is {0!r}'.format (p) ) 
p is Pair(3, 4) 

>>> print ('p is {0}'. format (p) ) 
pis (3, 4) 

>>> 


8.1.3 讨论 

EX repr _0 和 _ str_0 通 党 被 认为 是 好 的 编程 实践 ， 因 为 这 么 做 可 以 简化 调试 过 程 
和 实例 的 输出 。 比 方 说 ， 我 们 只 用 通过 打印 实例 ， 程 序 员 就 能 了 解 到 更 多 有 关 这 个 实 
例 内 容 的 有 用 信息 。 

对 于 _repr_0, 标准 的 做 法 是 让 它 产生 的 字符 串 文 本 能 够 满足 eval(repr(x)) == x。 如 果 
不 可 能 办 到 或 者 说 不 希望 有 这 种 行为 ， 那 么 通常 就 让 它 产生 一 段 有 帮助 意义 的 文本 ， 
并 且 以 < 和 > 括 起 来 。 示 例如 下 : 


>>> f = open('file.dat') 


















































>>> f 
<_io.TextIOWrapper name='file.dat' mode='r' encoding='UTF-8'> 
>>> 


如 果 没 有 定义 _str_0， 那 么 就 用 _repr_0 的 输出 当做 备份 。 


解决 方案 中 对 format() 函 数 的 使 用 看 起 来 似乎 有 点 意思 。 格式 化 代码 {0.x} 用 来 指 代 参 
数 0 的 x 属 性 。 因 此 在 下 面 的 函数 中 ，0 实际 上 就 代表 实例 self: 


def repr (self): 











return 'Pair({0.x!r}, {0.y!r})'.format (self) 


这 个 实现 还 可 以 有 另外 一 种 方式 ， 可 以 使 用 % 操 作 符 和 下 面 的 代码 来 完成 : 


def repr (self): 
return 'Pair(%r, %r)' % (self.x, self.y) 
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8.2” 自 定义 字符 串 的 输出 格式 

8.2.1 问题 

我 们 想 让 对 象 通过 formatO 函 数 和 字符 串 方 法 来 支持 自 定 义 的 输出 格式 。 
8.2.2 解决 方案 

要 自 定 义 字符 串 的 输出 格式 ， 可 以 在 类 中 定义 _format 0 方法 。 示 例如 下 : 


_formats = { 
'ymd' : '{d.year}-{d.month}-{d.day}', 
'mdy' : '{d.month}/{d.day}/{d.year}', 
'dmy' : '{d.day}/{d.month}/{d.year}' 
} 

class Date: 


def init (self, year, month, day): 
self.year = year 
self.month = month 


self.day = day 


def _format_ (self, code): 
if code == '': 
code = 'ymd' 
fmt = _formats[code] 
return fmt.format (d=self) 


Date 类 的 实例 现在 可 以 支持 如 下 的 格式 化 操作 了 : 


>>> d = Date(2012, 12, 21) 

>>> format (d) 

"2012-12-21! 

>>> format(d, 'mdy') 

"12/21/2012! 

>>> 'The date is {:ymd}'. format (d) 
'The date is 2012-12-21' 

>>> 'The date is {:mdy}'. format (d) 
"The date is 12/21/2012' 

>>> 


8.2.3 讨论 
format 0 方法 在 Python 的 字符 品格 式 化 功能 中 提供 了 一 个 钩子 。 需 要 重点 强调 的 是 ， 
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对 格式 化 代码 的 解释 完全 取决 于 类 本 身 。 因 此 ， 格 式 化 代码 几乎 可 以 为 任何 形式 。 举 
例 来 说 ， 考 虑 下 面 的 datetime 模块 的 示例 : 


>>> from datetime import date 

>>> d = date(2012, 12, 21) 

>>> format (d) 

"2012-12-21' 

>>> format(d,'SA, %B Sd, $Y') 

"Friday, December 21, 2012' 

>>> 'The end is {:%d %b SY}. Goodbye'. format (d) 
'The end is 21 Dec 2012. Goodbye' 

>>> 








对 于 内 建 类 型 来 说 ， 有 一 些 标准 的 格式 化 转换 形式 。 请 参阅 string 模块 的 文档 (http://docs. 
python.org/3/library/string.html ) 以 获得 正式 的 规范 。 


8.3 让 对 象 支持 上 下 文 管理 协议 


8.3.1 问题 
我 们 想 让 对 象 支持 上 下 文 管理 协议 ( context-management protocol， 通 过 with 语句 触发 )。 


8.3.2 解决 方案 


要 让 对 象 能 够 兼容 with 语句 ， 需 要 实现 _enter 0 和 ”exit _0 方 法。 比方 说 ， 考 虑 下 
面 这 个 表示 网 络 连接 的 类 : 


from socket import socket, AF_INET, SOCK_STREAM 


























class LazyConnection: 
def init__(self, address, family=AF_INET, type=SOCK_STREAM) : 
self.address = address 
self.family = AF_INET 
self.type = SOCK_STREAM 
self.sock = None 


def enter (self): 
if self.sock is not None: 
raise RuntimeError('Already connected') 
self.sock = socket (self.family, self.type) 
self.sock.connect (self.address) 
return self.sock 


def exit __ (self, exc ty, exc_val, tb): 
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self.sock.close() 
self.sock = None 


这 个 类 的 核心 功能 就 是 表示 一 条 网 络 连接 ， 但 是 实际 上 在 初始 状态 下 它 并 不 会 做 任何 
事情 ( 比如 ， 它 并 不 会 建立 一 条 连接 )。 相反， 网 络 连接 是 通过 with 语句 来 建立 和 关闭 
J ( 这 正 是 上 下 文 管理 的 基本 需求 )。 示 例如 下 : 


from functools import partial 


























oz 


conn = LazyConnection(('www.python.org', 80)) 

# Connection closed 

with conn as s: 
# conn. enter () executes: connection open 
s.send(b'GET /index.html HTTP/1.0\r\n') 
s.send(b'Host: www.python.org\r\n') 
s.send(b'\r\n') 
resp = b''.join(iter(partial(s.recv, 8192), b'')) 


# conn. exit () executes: connection closed 


8.3.3 讨论 

要 编写 一 个 上 下 文 管理 器 ， 其 背后 的 主要 原则 就 是 我 们 编写 的 代码 需要 包含 在 由 with 
语句 定义 的 代码 块 中 。 当 遇 到 with 语句 时 ，_enter__() 方 法 首先 被 触发 执行 。_enter_0) 
的 返回 值 ( 如 果 有 的 话 ) 被 放置 在 由 as 限定 的 变量 当中 。 之 后 开始 执行 with 代码 块 中 
的 语句 。 最 后 ，_exit_() 方 法 被 触发 来 执行 清理 工作 。 

这 种 形式 的 控制 流 与 with 语句 块 中 发 生 了 什么 情况 是 没有 关联 的 ， 出 现 异常 时 也 是 如 
此 。 实际 上 ,exit 0 方法 的 三 个 参数 就 包含 了 异常 类 型 、 值 和 对 挂 起 异常 的 追 滴 ( 如 
果 出 现 异常 的 话 )。_exit 0 方法 可 以 选择 以 某 种 方式 来 使 用 异常 信息 , 或 者 什么 也 不 
干 直接 忽略 它 并 返回 None 作为 结果 。 如 果 ”exit ORE True， 异 常 就 会 被 清理 干净 ， 
好 像 什么 都 没 发 生 过 一 样 ， 而 程序 也 会 立刻 继续 执行 with 语句 块 之 后 的 代码 。 

这 项 技术 有 一 个 微妙 的 地 方 ， 那 就 是 LazyConnection 类 是 否 可 以 通过 多 个 with 语句 以 
HRSA IT SUA socket 连接 。 正 如 我 们 给 出 的 代码 那样 ， 一 次 只 允许 创建 一 条 单独 的 
socket 连接 。 当 socket 已 经 在 使 用 时 ， 如 果 尝 试 重复 使 用 with 语句 就 会 产生 异常 。 我 
们 可 以 对 这 个 实现 稍 做 修改 来 绕 过 这 个 限制 ， 示 例如 下 : 


from socket import socket, AF_INET, SOCK STREAM 


























































































































class LazyConnection: 
def init__(self, address, family=AF_INET, type=SOCK_STREAM) : 
self.address = address 
self.family = AF_INET 
self.type = SOCK_STREAM 





self.connections = [] 


def enter (self): 
sock = socket (self.family, self.type) 
sock.connect (self.address) 
self.connections.append (sock) 


return sock 


def exit __ (self, exc ty, exc_val, tb): 


self.connections.pop() .close() 


# Example use 
from functools import partial 


conn = LazyConnection(('www.python.org', 80)) 


with conn as sl: 
with conn as s2: 


# sl and s2 are independent sockets 


在 第 二 个 版 本 中 ，LazyConnection 成 了 一 个 专门 生产 网 络 连接 的 工厂 类 。 在 内 部 实现 中 ， 
我 们 把 一 个 列表 当成 栈 使 用 来 保存 连接 。 每 当 _ enter_ 0 执行 时 ,由 它 产生 一 个 新 的 连 
接 并 添加 到 栈 中 。 而 __exit_0 方 法 只 是 简单 地 将 最 近 加 入 的 那个 连接 从 栈 中 弹出 并 关 
闭 它 。 这 个 修改 很 微不足道 ， 但 是 这 样 就 可 以 允许 用 网 套 式 的 with 语句 一 次 创建 出 多 
个 连接 了 。 

上 下 文 管理 器 最 常用 在 需要 管理 类 似 文 件 、 网 络 连接 和 锁 这 样 的 资源 的 程序 中 。 这 些 
资源 的 关键 点 在 于 它们 必须 显 式 地 进行 关闭 或 释放 才能 正确 工作 。 例 如 ， 如 果 获 得 了 
一 个 锁 ， 之 后 就 必须 确保 要 释放 它 ， 和 否则 就 会 有 和 死 锁 的 风险 。 通 过 实现 _enter _0 和 
_exit_Q, 并 且 利 用 with 语句 来 触发 ， 这 类 问题 就 可 以 很 容易 地 避免 了 。 因 为 exit O 
方法 中 的 清理 代码 无 论 如 何 都 会 保证 运行 的 。 

有 关上 下 文 管理 器 的 男 一 种 构想 可 以 在 contextmanager 模块 中 找到 ， 请 参阅 9.22 节 。 本 
节 示 例 的 线程 安全 版 本 可 以 在 12.6 节 中 找到 。 


8.4” 当 创建 大 量 实例 时 如 何 节 省 内 存 


8.4.1 问题 
我 们 的 程序 创建 了 大 量 的 ( 比如 百 万 级 ) 实例 ， 为 此 占用 了 大 量 的 内 存 。 
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8.4.2 解决 方案 
对 于 那些 主要 用 作 简 单数 据 结构 的 类 ， 通 常 可 以 在 类 定义 中 增加 _slot_ 属性， 以 此 来 
大 量 减少 对 内 存 的 使 用 。 示 例如 下 : 


class Date: 

















_slots = ['year', 'month', 'day'] 
def init (self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


MEXT slots 属性 时 ,Python 就 会 针对 实例 采用 一 种 更 加 紧凑 的 内 部 表示 。 不 再 
让 每 个 实例 都 创建 一 个 _dict_ 字典 , 现在 的 实例 是 围绕 着 一 个 固定 长 度 的 小 型 数组 来 
构建 的 , 这 和 一 个 元 组 或 者 列表 很 相似 。 在 _ slots_ 中 列 出 的 属性 名 会 在 内 部 映射 到 这 
个 数组 的 特定 索引 上 。 使 用 _slots_ 带 来 的 副作用 是 我 们 没 法 再 对 实例 添加 任何 新 的 
属性 了 一 一 我 们 被 限制 为 只 允许 使 用 _slots_ 中 列 出 的 那些 属性 名 。 


8.4.3 讨论 

使 用 _slots_ 节 省 下 来 的 内 存根 据 创 建 的 实例 数量 以 及 保存 的 属性 类 型 而 有 所 不 同 。 但 
是 ,一 般 来 说 使 用 的 内 存量 相当 与 将 数据 保存 在 元 组 中 。 为 了 有 一 个 直观 的 感受 ,我 
们 举 个 例子 : 在 64 位 版 本 的 Python 中 ， 不 使 用 _ slots_ 保存 一 个 单独 的 Date 实例 ， 
则 需要 占用 428 字 节 的 内 存 。 如 果 定 义 了 __slots”， 内 存 用 量 将 下 降 到 156 字 节 。 在 一 
个 需要 同时 处 理 大 量 Date 实例 的 程序 中 ， 这 将 显著 减少 总 的 内 存 用 量 。 


尽管 _slots_ 看 起 来 似乎 是 一 个 非常 有 用 的 特性 , 但 是 在 大 部 分 代码 中 都 应 该 尽量 别 
使 用 它 。Python 中 有 许多 部 分 都 依赖 于 传统 的 基于 字典 的 实现 。 此外, EXT slots 
属性 的 类 不 支持 某 些 特定 的 功能 ， 比 如 多 重 继承 。 就 大 部 分 情况 而 言 ， 我 们 应 该 只 针 
对 那些 在 程序 中 被 当做 数据 结构 而 频繁 使 用 的 类 上 采用 _slots_ 技 法 〈 例 如， 如 果 你 
的 程序 创建 了 上 百 万 个 特定 的 类 实例 )。 
关于 _slots_ 有 一 个 常见 的 误解 ， 那 就 是 这 是 一 种 封装 工具 ， 可 以 阻止 用 户 为 实例 添加 
新 的 属性 。 尽 管 这 的 确 是 使 用 _slots_ 所 带 来 的 副作用 , 但 这 绝 不 是 使 用 _slots_ 的 原 
本 意图 。 相 反 ， 人 们 一 直 以 来 都 把 _slots “当做 一 种 优化 工具 。 






























































































































































8.5 将 名 称 封装 到 类 中 


8.5.1 问题 
我 们 想 将 “私有 ”数据 封装 到 类 的 实例 上 ， 但 是 又 需要 考虑 到 Python 缺乏 对 属性 的 访 
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问 控制 问题 。 


8.5.2 ”解决 方案 

与 其 依赖 语言 特性 来 封装 数据 ，Python 程序 员 们 更 期 望 通过 特定 的 命名 规则 来 表达 出 
对 数据 和 方法 的 用 途 。 第 一 个 规则 是 任何 以 单 下 划 线 (_) 开头 的 名 字 应 该 总 是 被 认为 
只 属于 内 部 实现 。 比 如 : 


















































class A: 
def init (self): 
self. internal = 0 # An internal attribute 
self.public = 1 # A public attribute 


def public method (self): 


A public method 
pre 


def internal method(self): 





Python 本 身 并 不 会 阻止 其 他 人 访问 内 部 名 称 。 但 是 如 果 有 人 这 么 做 了 ， 则 被 认为 是 粗鲁 的 ， 
而 且 可 能 导致 产生 出 脆弱 不 堪 的 代码 。 应 该 要 提 到 的 是 ， 以 下 划 线 打头 的 标识 也 可 用 于 模 
块 名 称 和 模块 级 的 函数 中 。 比 如 ， 如 果 见 到 有 模块 名 以 下 划 线 打头 〈 例 如，_socket )， 那 
么 它 就 属于 内 部 实现 。 同 样 地 ， 模 块 级 的 函数 比如 sys，getframe0O 使 用 起 来 也 要 格外 小 心 。 


我 们 应 该 在 类 定义 中 也 见 到 过 以 双 下 划 线 C) 打头 的 名 称 。 例 如 : 






































class B: 
def init (self): 
self. private = 0 
def _ private_method(self): 


def public_method(self): 


self. private_method() 


以 双 下 划 线 打头 的 名 称 会 导致 出 现 名 称 重 整 (name mangling) 的 行为 。 具 体 来 说 就 是 
上 面 这 个 类 中 的 私有 属性 会 被 分 别 重 命名 为 _B_ private 和 _B_ private_method。 此 时 你 
可 能 会 问 ， 类 似 这 样 的 名 称 重 整 其 目的 何在 ? 答案 就 是 为 了 继承 一 一 这 样 的 属性 不 能 
通过 继承 而 覆盖 。 示 例如 下 : 

class C(B): 


def init (self): 
super(). init () 
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self. private = 1 # Does not override B. private 
# Does not override B._private_method() 
def _ private_method(self): 





XE, MAZER private 和 _ private_method 会 被 重 命名 为 _C_private Fl_C__ 
private_method， 这 和 基 类 B 中 的 重 整 名 称 不 同 。 


8.5.3 讨论 
“私有 ”属性 存在 两 种 不 同 的 命名 规则 ( 单 下 划 线 和 双 下 划 线 )， 这 一 事实 引出 了 一 个 
显而易见 的 问题 : 应 该 使 用 哪 种 风格 ?” 对 于 大 部 分 代码 而 言 ， 我 们 应 该 让 非 公有 名 称 
以 单 下 划 线 开头 。 但 是 ， 如 果 我 们 知道 代码 中 会 涉及 子 类 化 处 理 ， 而 且 有 些 内 部 属性 
应 该 对 子 类 进行 隐藏 ， 那 么 此 时 就 应 该 使 用 双 下 划 线 开头 。 
此 外 还 应 该 指出 的 是 ， 有 时 候 可 能 想 定义 一 个 变量 ， 但 是 名 称 可 能 会 和 保留 字 产 生 冲 
突 。 基 于 此 ， 应 该 在 名 称 最 后 加 上 一 个 单 下 划 线 以 示 区 别 。 比 如 : 

lambda_ = 2.0 # Trailing _ to avoid clash with lambda keyword 
这 里 不 采用 以 下 划 线 开头 的 原因 是 避免 在 使 用 意图 上 发 生 混淆 ( 例如 ， 如 果 采 用 下 划 
线 开头 的 形式 ， 那 么 可 能 会 被 解释 为 这 么 做 是 为 了 避免 名 称 冲突 ， 而 不 是 作为 私有 数 
据 的 标志 )。 在 名 称 尾部 加 一 个 单 下 划 线 就 能 解决 这 个 问题 。 















































8.6 创建 可 管理 的 属性 


8.6.1 问题 

在 对 实例 属性 的 获取 和 设 定 上 ， 我 们 希望 增加 一 些 额 外 的 处 理 过 程 ( 比如 类 型 检查 或 
者 验证 )。 

8.6.2 ”解决 方案 


要 自 定义 对 属性 的 访问 ， 一 种 简单 的 方式 是 将 其 定义 为 property” 比如 说 ， 下 面 的 代 
码 定义 了 一 个 property， 增 加 了 对 属性 的 类 型 检查 : 


class Person: 























def init (self, first name): 


self.first_name = first name 


# Getter function 
@property 





” 即 ， 把 类 中 定义 的 函数 当做 一 种 属性 来 使 用 。 一 一 译 者 注 
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def first name(self): 
return self. first name 


# Setter function 
@first_name.setter 
def first name (self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string') 
self. first name = value 


# Deleter function (optional) 
@first_name.deleter 
def first_name(self): 
raise AttributeError ("Can't delete attribute") 


在 上 述 代码 中 ， 一 共有 三 个 互相 关联 的 方法 ， 它 们 必须 有 着 相同 的 名 称 。 第 一 个 方法 
是 一 个 getter 函数 ， 并 且 将 first_name 定义 为 了 property 属性 。 其 他 两 个 方法 将 可 选 的 setter 
和 deleter 函数 附加 到 了 first_name 属性 上 。 需 要 重点 强调 的 是 ， 除 非 firstname 已 经 通 
过 @property 的 方式 定义 为 了 property 属性 ， 否 则 是 不 能 定义 @first_name.setter 和 
@first_name.deleter 装饰 器 的 。 


property 的 重要 特性 就 是 它 看 起 来 就 像 一 个 普通 的 属性 ， 但 是 根据 访问 它 的 不 同方 式 ， 
会 自动 触发 getter, setter 以 及 deleter 方法 。 示 例如 下 : 


>>> a = Person('Guido') 















































>>> a.first name # Calls the getter 
"Guido! 
>>> a.first_name = 42 # Calls the setter 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "prop.py", line 14, in first_name 
raise TypeError('Expected a string') 
TypeError: Expected a string 
>>> del a.first_name 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: can't delete attribute 
>>> 


当 我 们 实现 一 个 property 时 ， 底 层 的 数据 ( 如 果 有 的 话 ) 仍然 需要 被 保存 到 某 个 地 方 。 
因此 在 get 和 set 方法 中 ， 可 以 看 到 我 们 是 直接 对 _first_name 进行 操作 的 ， 这 就 是 数据 
实际 保存 的 地 方 。 此 外 ， 你 可 能 会 问 为 什么 在 _init_() 方 法 中 设 定 的 是 self.first_name 
而 不 是 self._first_name YE? 在 这 个 例子 中 , property 的 全 部 意义 就 在 于 我 们 设置 属性 时 
可 以 执行 类 型 检查 。 因 此 ,很 有 可 能 你 想 让 这 种 类 型 检查 在 初始 化 的 时 候 也 可 以 进行 。 







































































类 与 对 象 255 


因此 ， 在 _init 0 中 设置 self.first_name， 实 际 上 会 调用 到 setter 方法 ( 因此 就 会 跳 过 


self.first_name 而 去 访问 self._first_name )。 


对 于 已 经 存在 的 get 和 set 方法 ， 同 样 也 可 以 将 它们 定义 为 property。 示 例如 下 : 


class Person: 








def init (self, first name): 


self.set first name (first name) 


# Getter function 
def get first name (self): 
return self. first name 


# Setter function 
def set first name (self, value): 
if not isinstance(value, str): 
raise TypeError ('Expected a string') 
self. first name = value 


# Deleter function (optional) 
def del first name (self): 
raise AttributeError ("Can't delete attribute") 


# Make a property from existing get/set methods 
name = property(get_first_name, set_first_name, del_first_name) 


8.6.3 讨论 


property 属性 实际 上 就 是 把 一 系列 的 方法 绑 定 到 一 起 。 如 果 检 查 类 的 property 属性 ， 就 
会 发 现 property 自身 所 持 有 的 属性 fget、fset 和 fael 所 代表 的 原始 方法 。 示 例如 下 : 


>>> Person.first name.fget 


ral 











<function Person.first_name at 0x1006a60e0> 
>>> Person.first_name.fset 

<function Person.first_name at 0x1006a6170> 
>>> Person. first_name.fdel 

<function Person.first_name at 0x1006a62e0> 
>>> 











一 般 来 说 我 们 不 会 直接 去 调用 feet 或 者 fset， 但 是 当 我 们 访问 property 属性 时 会 
触发 对 这 些 方法 的 调用 。 
只 有 当 确 实 需 要 在 访问 属性 时 完成 一 些 额 外 的 处 理 任务 时 , 才 应 该 使 用 property。 有 时 


We Java 程序 员 会 觉得 所 有 的 访问 都 需要 通过 getter 和 setter 来 处 理 ， 那 么 他 们 的 代码 
就 应 该 是 下 面 这 个 样子 : 


Hp 


自动 
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class Person: 
def init (self, first name): 
self.first_ name = name 
@property 
def first name(self): 
return self. first _name 
@first_name.setter 
def first name (self, value): 


self. first name = value 








如 果 property 并 不 会 完成 任何 额外 的 处 理 任 务 ， 就 不 要 把 代码 写成 上 面 这 个 样子 。 第 一 ， 
这 么 做 会 使 得 代码 变 得 更 加 嘿 呈 ， 对 其 他 人 来 说 也 比较 困惑 。 第 二 ， 这 么 做 会 让 程序 
变 慢 很 多 。 最 后 ， 这 人 么 做 不 会 给 设计 带 来 真正 的 好 处 。 特 别 是 如 果 稍 后 决定 要 对 某 个 
普通 的 属性 增加 额外 的 处 理 步 又 时 ， 可 以 在 不 修改 已 有 代码 的 情况 下 将 这 个 属性 提升 
为 一 个 property。 这 是 因为 代码 中 访问 一 个 属性 的 语法 并 不 会 改变 ( 即 , 访问 普通 属性 
和 访问 property 属性 的 代码 写法 是 一 样 的 )。 

property 也 可 以 用 来 定义 需要 计算 的 属性 。 这 类 属性 并 不 会 实际 保存 起 来 ,而 是 根据 需 
要 完成 计算 。 示 例如 下 : 
















































































import math 
class Circle: 
def init (self, radius): 
self.radius = radius 
@property 
def area(self): 
return math.pi * self.radius ** 2 
@property 
def perimeter (self): 


return 2 * math.pi * self.radius 


这 里 对 property 的 使 用 使 得 实例 的 接口 变 得 非常 统一 ，radius 、area 以 及 perimeter 都 能 
够 简单 地 以 属性 的 形式 进行 访问 ， 而 不 必 将 属性 和 方法 调用 混在 一 起 使 用 了 。 示 例 
如 下 : 


>>> c = Circle(4.0) 

















>>> c. radius 

4.0 

>>> c.area t ZEREA () 
50.26548245743669 

>>> c.perimeter # ZEUXEO 
25.132741228718345 

>>> 


尽管 property 带 来 了 优雅 的 编程 接口 , 但 有 时 候 我 们 还 是 希望 能 够 直接 使 用 getter 和 setter 
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PRI 比如 说 : 


>>> p = Person('Guido') 

>>> p.get_first_name() 
"Guido' 

>>> p.set_first_name('Larry') 


>>> 


这 种 情况 常常 会 出 现在 当 Python 代码 需要 被 集成 到 一 个 更 为 庞大 的 系统 基础 设施 
或 者 程序 的 时 候 。 比 方 说 ， 也 许 有 一 个 Python 类 需要 根据 远程 过 程 调用 (RPC ) 或 
者 分 布 式 对 象 插入 到 一 个 大 型 的 分 布 式 系统 中 。 在 这 种 情况 下 ， 直 接 显 式 地 采用 
get/set 方法 (作为 普通 的 方法 调用 ) 要 比 通过 property He Bact dal Ie ew Be Ty 
便 和 简单 。 

最 后 但 也 同样 重要 的 是 ， 不 要 编写 那 种 定义 了 大 量 重复 性 property 的 代码 。 示 例 
如 下 : 


class Person: 



































def init (self, first name, last_name): 
self.first_name = first name 


self.last_name = last _name 


@property 
def first name (self): 
return self. first name 


@first_name.setter 
def first name (self, value): 
if not isinstance(value, str): 
raise TypeError ('Expected a string') 
self. first name = value 


# Repeated property code, but for a different name (bad!) 
@property 
def last_name(self): 


return self. last name 


@last_name.setter 
def last_name(self, value): 
if not isinstance(value, str): 
raise TypeError ('Expected a string') 
self. last_name = value 


重复 的 代码 会 导致 代码 膨胀 ， 容 易 出 错 ， 而 且 代码 也 十 分 丑 了 项。 事实 证明， 利用 描述 
符 或 者 闭 包 能 够 更 好 地 完成 同样 的 任务 ， 具 体 请 参见 8.9 节 和 9.21 47. 
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8.7 调用 父 类 中 的 方法 
8.7.1 问题 
我 们 想 调 用 一 个 父 类 中 的 方法 ， 这 个 方法 在 子 类 中 已 经 被 覆盖 了 。 


8.7.2 解决 方案 
要 调用 父 类 (或 称 超 类 ) 中 的 方法 ， 可 以 使 用 super0 函 数 完成 。 示 例如 下 : 


class A: 








def spam(self): 
print ('A.spam') 


class B(A): 
def spam(self): 
print ('B.spam') 
super () .spam() # Call parent spam/() 

















super() PRAI — A ay UL ae EVA HK init 0 方法， 确保 父 类 被 正确 地 初始 化 了 : 


class A: 
def init (self): 
self.x = 0 
class B(A): 
def init (self): 
super().__init_ () 
self.y = 1 


nPE SLE 7 m S Python 中 的 特殊 方法 时 ， 示 例如 下 : 


class Proxy: 
def init (self, obj): 
self._obj = obj 


# Delegate attribute lookup to internal obj 
def getattr (self, name): 
return getattr(self. obj, name) 


# Delegate attribute assignment 
def setattr (self, name, value): 
if name.startswith(' '): 
super(). setattr (name, value) # Call original _setattr _ 
else: 
setattr(self. obj, name, value) 
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在 上 述 代 码 中 ，_ setattr_ (0 的 实现 里 包含 了 对 名 称 的 检查 。 如 果 名 称 是 以 一 个 下 划 线 
(_) 开头 的 ， 它 就 通过 super0 去 调用 原始 的 _setattr_0 实 现 。 否 则 ， 就 转 而 对 内 部 持 
有 的 对 象 self._obj 进行 操作 。 这 看 起 来 有 点 意思 ， 但 是 super0 即 使 在 没有 显 式 列 出 基 
类 的 情况 下 也 是 可 以 工作 的 。 


8.7.3 讨论 
如 何 正 确 使 用 super0 函 数 ， 这 实际 上 是 人 们 在 Python 中 理解 的 最 差 的 知识 点 之 一 。 偶 
尔 我 们 会 看 到 一 些 代码 直接 调用 父 类 中 的 方法 ， 就 像 这 样 : 


class Base: 
def init (self): 
print ('Base. init ') 















































class A(Base): 
def init (self): 
Base. init (self) 
print ('A. init ') 














尽管 对 于 大 部 分 代码 来 说 这 么 做 都 “ 行 得 通 ”， 但 是 在 涉及 多 重 继承 的 代码 里 ， 就 会 导 
致 出 现 奇怪 的 麻烦 。 比 如 ， 考 虑 下 面 这 个 例子 : 
class Base: 


def init (self): 
print ('Base. init ') 














class A (Base): 
def init (self): 
Base. init (self) 
print ('A. init_') 


class B (Base): 
def init (self): 
Base. init (self) 
print ('B. init_') 


class C(A,B): 
def init (self): 
A. init (self) 
B. init (self) 
print ('C. init_') 


如 果 运 行 上 面 的 代码 ， 会 发 现 Base， init_() 方 法 被 调用 了 两 次 。 如 下 所 示 : 


>>> c = C() 


Base. init _ 
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C.__init 
>>> 


也 许 调 用 两 次 Base. init_0) 并 没什么 害处 ， 但 是 也 可 能 刚好 相反 。 如 果 从 另 一 方面 考 
虑 ， 将 代码 修改 为 使 用 super()， 那 么 一 切 就 都 能 正常 工作 了 : 
class Base: 


def init (self): 


print ('Base. init ') 





class A(Base): 
def init (self): 
super(). init () 
print ('A. init ') 


class B(Base): 
def init (self): 


super(). init () 





print ('B. init ') 
class C(A,B): 
def init (self): 
super(). init () # Only one call to super() here 
print ('C. init ') 
当 使 用 这 个 新 版 的 代码 时 ， 就 会 发 现 每 个 _init 0 方法 都 只 调用 了 一 次 : 
>>> c = C() 


Base. init _ 


B. anit - 
A. init 
Cy init “ 
>>> 


要 理解 其 中 的 缘由 ， 我 们 需要 退 一 步 ， 移 讨论 一 下 Python 是 如 何 实现 继承 的 。 针 对 每 
一 个 定义 的 类 ，Python 都 会 计算 出 一 个 称 为 方法 解析 顺序 (MRO ) 的 列表 。MRO 列 
表 只 是 简单 地 对 所 有 的 基 类 进行 线性 排列 。 示 例如 下 : 


>>> C. mro 


(<class ' main .C'>, <class ' main .A'>, <class '_main_.B'>, 
<class ' main .Base'>, <class 'object'>) 
>>> 





ts 


”实际 上 是 以 Python 元 组 来 表示 的 ， 因 为 _mro_ 属性 是 只 读 的 。 一 一 译 者 注 











al 
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要 实现 继承 , Python 从 MRO 列表 中 最 左边 的 类 开始 , 从 左 到 右 依 次 查找 , 直到 找到 待 


查 的 属性 时 为 止 。 











而 MRO 列表 本 身 又 是 如 何 确定 的 呢 ? 这 里 用 到 了 一 种 称 为 C3 线性 化 处 理 ( C3 
Linearization ) 的 技术 。 为 了 不 陷入 到 艰深 的 数学 理论 中 ， 简 单 来 说 这 就 是 针对 父 类 的 


一 种 归并 排序 ， 它 需要 满足 3 个 约束 : 


先 检 查 子 类 再 检查 父 类 ; 



































如 果 











有 多 个 父 类 时 ， 按 照 MRO 列表 的 顺序 依次 检查 ; 
下 一 个 待 选 的 类 出 现 了 两 个 合法 的 选择 ， 那 么 就 从 第 一 个 父 类 中 选取 。 





老实 说 ， 所 有 需要 的 知道 的 就 是 MRO 列表 中 对 类 的 排序 几乎 适用 于 任何 定义 的 类 层次 


结构 (class hierarchy )。 


当 使 用 superO 函 数 时 ，Python 会 继续 从 MRO 中 的 下 一 个 类 开始 搜索 。 只 要 每 一 个 重 
新 定义 过 的 方法 ( 也 就 是 覆盖 方法 ) 都 使 用 了 super0, IFA RIA SEK, MARE 
制 流 最 终 就 可 以 遍历 整个 MRO 列表 ， 并且 让 每 个 方法 只 会 被 调用 一 次 。 这 就 是 为 什 











么 在 第 二 个 例子 中 Base. init _0 不 会 被 调用 两 次 的 原因 。 























关于 super0 ,一 个 有 些 令 人 惊讶 的 方面 是 ， 


上 ， 甚 至 可 以 在 没有 直接 父 类 的 类 中 使 用 它 。 例 





class A: 
def spam(self): 
print ('A.spam') 


super () .spam() 


EH 





F 不 是 一 定 要 关联 到 某 个 类 的 直接 父 类 





如 果 试 着 使 用 这 个 类 ， 会 发 现 这 完全 行 不 通 : 


>>> a = A() 
>>> a.spam() 
A.spam 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "<stdin>", line 4, in spam 
Attribute 
>>> 

















如 ， 考 虑 下 面 这 个 类 : 


Error: 'super' object has no attribute 'spam' 


但 是 ， 如 果 把 这 个 类 用 于 多 重 继承 时 看 看 会 发 生 什么 : 





>>> class B: 
def spam(self): 
print ('B.spam') 


>>> class C(A,B): 
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pass 


>>> c = C() 
>>> c.spam() 
A.spam 
B.spam 

>>> 


这 里 我 们 会 发 现在 类 A 中 使 用 的 super0.spamg0 实 际 上 居然 调用 到 了 类 B 中 的 spam() 
方法 一 一 B 和 A 是 完全 不 相关 的 ! 这 一 切 都 可 以 用 类 C 的 MRO 列表 来 解释 : 


>>> C. mro 








(<class ' main .C'>, <class ' main .A'>, <class '_main_.B'>, 

<class 'object'>) 
我 们 常常 会 在 定义 混合 类 (mixin class ) 时 以 这 种 方式 使 用 super0。 请 参见 8.13 和 8.18 节 。 
但 是 ， 由 于 superO 可 能 会 调用 到 我 们 不 希望 调用 的 方法 ， 那 么 这 里 有 一 些 应 该 遵守 的 
基本 准则 。 首 先 ， 确 保 在 继承 体系 中 所 有 同名 的 方法 都 有 可 兼容 的 调用 签名 ( 即 ， 参 
数 数量 相同 ， 参 数 名 称 也 相同 )。 如 果 super0 尝 试 去 调用 非 直接 父 类 的 方法 ， 那么 这 就 
可 以 确保 不 会 遇 到 麻烦 。 其 次 ， 确 保 最 顶层 的 类 实现 了 这 个 方法 通常 是 个 好 主意 。 这 
样 沿 着 MRO 列表 展开 的 查询 链 会 因为 最 终 找到 了 实际 的 方法 而 终止 。 
在 Python 社区 中 ， 关 于 super0 的 使 用 有 时 候 会 成 为 争论 的 焦点 。 但 是 ， 公 平地 说 ， 我 
们 应 该 在 现代 的 代码 中 使 用 它 。Raymond Hettinger 在 博客 中 写 过 一 篇 题 为 “Python's 
super() considered Super!” 的 文章 ,文章 中 列举 了 更 多 的 示例 和 理由 来 说 明 为 什么 supero 


x 


会 是 超级 有 用 的 工具 。 


8.8 在 子 类 中 扩展 属性 
8.8.1 问题 
我 们 想 在 子 类 中 扩展 某 个 属性 的 功能 ， 而 这 个 属性 是 在 父 类 中 定义 的 。 


8.8.2 解决 方案 
考虑 如 下 的 代码 ， 这 里 我 们 定义 了 一 个 属性 name: 


class Person: 
















































































—- 














def init (self, name): 


self.name = name 








” super 在 英语 中 就 表示 “超级 的 ",“ 极 好 的 "， 作 者 在 这 里 是 双关 ， 借 用 函数 名 super 来 表示 它 的 强 
大 。 一 一 译 者 注 
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# Getter function 

@property 

def name(self): 
return self. name 


# Setter function 
@name.setter 
def name(self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string') 


self. name = value 


# Deleter function 
@name.deleter 
def name(self): 
raise AttributeError ("Can't delete attribute") 





下 面 我 们 从 Person 类 中 继承 ， 然 后 在 子 类 中 扩展 name 属性 的 功能 : 


class SubPerson (Person): 








@property 
def name(self): 
print ('Getting name') 


return super() .name 


@name.setter 
def name(self, value): 
print ('Setting name to', value) 
super (SubPerson, SubPerson).name._set_ (self, value) 


@name.deleter 
def name(self): 
print ('Deleting name') 
super (SubPerson, SubPerson).name. delete (self) 


下 面 是 使 用 这 个 新 类 的 示例 : 


>>> s = SubPerson('Guido') 
Setting name to Guido 

>>> s.name 

Getting name 

"Guido! 

>>> s.name = 'Larry' 
Setting name to Larry 

>>> s.name = 42 
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Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 
raise TypeError('Expected a string') 
TypeError: Expected a string 
>>> 


如 果 只 想 扩 展 属性 中 的 其 中 一 个 方法 ， 可 以 使 用 下 面 的 代码 实现 : 


class SubPerson (Person) : 














@Person.name.getter 

def name(self): 
print ('Getting name') 
return Super () .name 


或 者 ， 如 果 只 想 扩展 setter， 可 以 这 样 : 


class SubPerson (Person): 





Ty 





@Person.name.setter 
def name(self, value): 
print ('Setting name to', value) 


super (SubPerson, SubPerson).name._set_ (self, value) 


8.8.3 讨论 

在 子 类 中 扩展 属性 会 引入 一 些 非常 微妙 的 问题 ， 因 为 属性 其 实 是 被 定义 为 getter, setter 
和 deleter 方法 的 集合 ， 而 不 仅仅 只 是 单独 的 方法 。 因 此 ， 当 我 们 扩展 一 个 属性 时 ， 需 
要 弄 清楚 是 要 重新 定义 所 有 的 方法 还 是 只 针对 其 中 一 个 方法 做 扩展 。 

在 第 一 个 例子 中 ， 所 有 的 属性 方法 都 被 重新 定义 了 。 在 每 个 方法 中 ， 我 们 利用 supero 
函数 来 调用 之 前 的 实现 。 在 setter KÆ, Xf super(SubPerson, SubPerson).name.__ 
set__(self, value) 的 调用 并 不 是 错误 ， 下 面 我 们 来 解释 一 下 。 为 了 调用 到 setter 之 前 的 
实现 ， 需 要 把 控制 流传 递 到 之 前 定义 的 name 属性 的 _ set_0 方 法 中 去 。 但 是 ， 唯 一 
能 调用 到 这 个 方法 的 方式 就 是 以 类 变量 而 不 是 实例 变量 的 方式 去 访问 。 这 正 是 
super(SubPerson, SubPerson) teM E 所 完成 的 任务 。 

如 果 只 想 重 新 定义 其 中 的 一 个 方法 ， 只 使 用 @property 是 不 够 的 。 例 如 ， 下 面 这 样 的 代 
人 码 是 无 法 工作 的 : 


class SubPerson (Person): 























































































































@property # Doesn't work 
def name (self): 

print ('Getting name') 

return super() .name 


如 果 试 着 使 用 这 份 代码 ， 就 会 发 现 setter 函数 完全 消失 不 见 了 : 
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>>> s = SubPerson('Guido') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 5, in _init_ 
self.name = name 
AttributeError: can't set attribute 
>>> 


相反 ， 我 们 应 该 将 代码 修改 为 解决 方案 中 的 那样 : 


class SubPerson (Person) : 
@Person.getter 
def name(self): 
print ('Getting name') 
return super() .name 





当 这 人 么 做 之 后 , 所 有 之 前 定义 过 的 属性 方法 都 会 被 拷贝 过 来 ,而 getter R 
掉 。 现 在 可 以 按照 预期 的 方式 工作 了 : 


>>> s = SubPerson('Guido') 





>>> s.name 

Getting name 

"Guido! 

>>> s.name = 'Larry' 

>>> s.name 

Getting name 

"Larry' 

>>> s.name = 42 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 

raise TypeError('Expected a string') 
TypeError: Expected a string 
>>> 





函数 则 会 被 替换 


在 这 个 特定 的 解决 方案 中 ,我 们 没 法 以 更 加 一 般 化 的 名 称 来 替换 硬 编码 的 类 名 Persono 




















如 果 不 清楚 哪个 基 类 定义 了 属性 ， 则 应 该 采用 这 样 的 方案 : 重新 定义 所 有 的 属性 


并 利用 super0 来 调用 之 前 的 实现 。 








F 





值得 一 提 的 是 ， 本 节 展 示 的 第 一 个 技术 同样 也 可 以 用 来 扩展 描述 符 ( 见 8.9 节 ) 示例 如 下 : 


# A descriptor 
class String: 
def init (self, name): 


self.name = name 


f get (self, instance, cls): 
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if instance is None: 
return self 


return instance. dict _ [self.name] 


def set (self, instance, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string') 
instance. dict [self.name] = value 


# A class with a descriptor 
class Person: 
name = String('name') 
def init (self, name): 


self.name = name 


# Extending a descriptor with a property 
class SubPerson (Person) : 
@property 
def name(self): 
print ('Getting name') 


return super() .name 


@name.setter 
def name(self, value): 
print ('Setting name to', value) 


super (SubPerson, SubPerson).name._set_ (self, value) 


@name.deleter 
def name(self): 
print ('Deleting name') 


super (SubPerson, SubPerson).name._delete_ (self) 


























最 后 要 说 的 是 ， 当 读 到 这 里 的 时 候 ， 我 们 应 该 会 觉得 在 子 类 中 重 定义 setter 和 deleter 的 
工作 多 少 得 到 了 一 些 简 化 。 虽 然 这 里 给 出 的 解决 方案 仍然 能 够 正常 工作 ， 但 是 在 Python 
的 问题 报告 页 面 中 提 到 的 这 个 bug (http://bugs.python.org/issue14965 ) 可 能 会 使 得 在 未 
来 的 Python 版 本 中 产生 出 一 种 更 加 清晰 的 解决 方案 。 

















8.9 创建 一 种 新 形式 的 类 属性 或 实例 属性 


8.9.1 问题 
我 们 想 创建 一 种 新 形式 的 实例 属性 ， 它 可 以 拥有 一 些 额外 的 功能 ， 比 如 说 类 型 检查 。 














类 与 对 象 267 


8.9.2 ”解决 方案 
如 果 想 创建 一 个 新 形式 的 实例 属性 ， 可 以 以 描述 符 类 的 形式 定义 其 功能 。 示 例如 下 : 


# Descriptor attribute for an integer type-checked attribute 





class Integer: 
def init (self, name): 


self.name = name 


def get (self, instance, cls): 
if instance is None: 
return self 
else: 


return instance. dict [self.name] 


def set (self, instance, value): 
if not isinstance(value, int): 
raise TypeError('Expected an int') 
instance. dict [self.name] = value 


def delete (self, instance): 
del instance. dict [self.name] 


所 谓 的 描述 符 就 是 以 特殊 方法 _get_0、_set_ 0 和 _ delete_0 的 形式 实现 了 三 个 核心 
的 属性 访问 操作 ( 对 应 于 get, set 和 delete) 的 类 。 这 些 方法 通过 接受 类 实例 作为 输入 
来 工作 。 之 后 ， 底 层 的 实例 字典 会 根据 需要 适当 地 进行 调整 。 

要 使 用 一 个 描述 符 ， 我 们 把 描述 符 的 实例 放置 在 类 的 定义 中 作为 类 变量 来 用 。 示 例 
如 下 : 


class Point: 























x = Integer('x') 

y = Integer('y') 

def init (self, x, y): 
self.x = x 
self.y =y 


当 这 么 做 时 ， 所 有 针对 描述 符 属 性 ( 即 ， 这 里 的 x BK y) 的 访问 都 会 被 _get_ 0、_set_0 
和 delete_ 0 方法 所 捕获 。 示 例如 下 : 


>>> p = Point (2, 3) 





ral 





>>> p.x # Calls Point.x get (p, Point) 
2 

>>> p.y = 5 # Calls Point.y. set (p, 5) 
>>> p.x = 2.3 # Calls Point.x. set (p, 2.3) 


Traceback (most recent call last): 
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File "<stdin>", line 1, in <module> 
File "descrip.py", line 12, in _set_ 
raise TypeError('Expected an int') 
TypeError: Expected an int 
>>> 





每 个 描述 符 方法 都 会 接受 被 操纵 的 实例 作为 输入 。 要 执行 所 请 求 的 操作 ， 底 层 的 实例 
字典 ( 即 _dict_ 属 性 ) 会 根据 需要 适当 地 进行 调整 。 描 述 符 的 self.name 属性 会 保存 字 
典 的 键 ， 通 过 这 些 键 可 以 找到 存储 在 实例 字典 中 的 实际 数据 。 


8.9.3 讨论 

对 于 大 多 数 Python 类 的 特性 ， 描 述 符 都 提供 了 底层 的 魔法 ， 包 括 @classmethod 、 
@staticmethod, @property #£2__slots__. 

通过 定义 一 个 描述 符 ， 我 们 可 以 在 很 底层 的 情况 下 捕获 关键 的 实例 操作 (get. set. delete ), 
并 可 以 完全 自 定义 这 些 操作 的 行为 。 这 种 能 力 非常 强大 ， 这 也 是 那些 编写 高 级 程序 库 
和 框架 的 作者 们 所 使 用 的 最 为 重要 的 工具 之 一 。 
关于 描述 符 ， 常 容易 困惑 的 地 方 就 是 它们 只 能 在 类 的 层次 上 定义 ,不 能 根据 实例 来 产 
生 。 因 此 ， 下 面 这 样 的 代码 是 无 法 工作 的 : 


# Does NOT work 
class Point: 







































































def init__(self, x, y): 
self.x = Integer('x') # No! Must be a class variable 
self.y = Integer('y') 
self.x =x 


self.y =y 


此 外 ， 在 实现 _get_0 方 法 时 比 想象 中 的 还 要 复杂 一 些 : 


# Descriptor attribute for an integer type-checked attribute 
class Integer: 


def get (self, instance, cls): 
if instance is None: 
return self 
else: 
return instance. dict _ [self.name] 


























get 0 看 起 来 多 少 有 些 复 杂 的 原因 在 于 实例 变量 和 类 变量 之 间 是 有 区 别 的 。 如 果 是 以 
类 变量 的 形式 访问 描述 符 , 参数 instance 应 该 设 为 None。 在 这 种 情况 下 , 标准 做 法 就 
是 简单 地 返回 描述 符 实例 本 身 ( 尽管 此 时 做 任何 类 型 的 自 定义 处 理 也 是 允许 的 )。 示 
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例如 下 : 


>>> p = Point (2,3) 


>>> p.x # Calls Point.x. get (p, Point) 

2 

>>> Point.x # Calls Point.x.__get__ (None, Point) 
<_main_.Integer object at 0x100671890> 

>>> 





描述 符 常 常会 作为 一 个 组 件 出 现在 大 型 的 编程 框架 中 ,其 中 还 会 涉及 装饰 需 或 者 元 类 。 
正 因为 如 此 ， 对 描述 符 的 使 用 可 能 隐藏 得 很 深 ， 几 乎 看 不 到 痕迹 。 例 如 ， 下 面 是 一 些 











更 加 高 级 的 基于 描述 符 的 代码 ， 其 中 还 用 到 了 类 装饰 絮 : 


# Descriptor for a type-checked attribute 
class Typed: 
def init (self, name, expected type): 
self.name = name 


self.expected type = expected type 


def get (self, instance, cls): 
if instance is None: 
return self 
else: 


return instance. dict [self.name] 


def set (self, instance, value): 
if not isinstance(value, self.expected_type) : 
raise TypeError('Expected ' + str(self.expected_type) ) 
instance. dict [self.name] = value 
def delete (self, instance): 


del instance. dict [self.name] 


# Class decorator that applies it to selected attributes 
def typeassert (**kwargs): 
def decorate(cls): 
for name, expected_type in kwargs.items(): 
# Attach a Typed descriptor to the class 
setattr(cls, name, Typed(name, expected_type) ) 
return cls 
return decorate 


# Example use 
@typeassert (name=str, shares=int, price=float) 
class Stock: 


def init__(self, name, shares, price): 
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self.name = name 
self.shares = shares 
self.price = price 





























最 后 ， 应 该 强调 的 是 ， 如 果 只 是 想 访问 茶 个 特定 的 类 中 的 一 种 属性 ， 并 对 此 做 定制 化 
处 理 , 那么 最 好 不 要 编写 描述 符 来 实现 。 对 于 这 个 任务 , 用 property 属性 方法 来 完成 会 
更 加 简单 ( 见 8.6 节 )。 在 需要 大 量 重用 代码 的 情况 下 ， 描 述 符 会 更 加 有 用 ( 例如， 我 














们 希望 在 自己 的 代码 中 大 量 使 用 描述 符 提供 的 功能 ,或 者 将 其 作为 库 来 使 用 )。 








8.10 让 属性 具有 惰性 求 值 的 能 
8.10.1 问题 











我 们 想 将 一 个 只 读 的 属性 定义 为 property 属性 方法 ， 只 有 在 访问 它 时 才 参 与 计算 。 但 是 ， 











一 且 访 问 了 该 属性 ， 我 们 和 希望 把 计算 出 的 值 缓 存 起 来 ， 不 要 每 次 访问 它 时 都 重新 计算 。 


8.10.2 解决 方案 
定义 一 个 惰性 属性 最 有 效 的 方式 就 是 利用 描述 符 类 来 完成 ， 示 例如 下 : 


class lazyproperty: 








def init (self, func): 


self.func = func 


def get (self, instance, cls): 
if instance is None: 
return self 
else: 
value = self.func(instance) 
setattr (instance, self.func. name , value) 
return value 


要 使 用 上 述 代码 ， 可 以 像 下 面 这 样 在 某 个 类 中 使 用 它 : 


import math 











class Circle: 
def init (self, radius): 


self.radius = radius 


@lazyproperty 
def area(self): 
print ('Computing area') 
return math.pi * self.radius ** 2 
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下 面 的 交互 式 会 


请 注意 ， 这 里 的 “Computing area” 


8.10.3 
在 大 部 分 情况 下 ， 让 属性 具有 
如 ， 除 非 确实 需要 用 到 这 个 属性 ， 
解决 方案 正 是 应 对 于 此 ， Wi LAL THE 


来 达成 。 
在 8.9 节 中 讲 过 ， 当 把 描述 符 放 到 类 的 定义 体 中 
set (和 ”delete_ 0 方法 得 到 执行 。 但 是 ， 如 果 一 


则 它 的 绑 定 关系 比 一 般 情 况 下 要 弱化 很 多 (much weaker binding )。 特 别 是 ， 


@lazyproperty 

def perimeter (self): 
print ('Computing perimeter') 
return 2 * math.pi * self.radius 


话说 明了 这 


>>> c = Circle(4.0) 














>>> c.radius 

4.0 

>>> c.area 
Computing area 
50.26548245743669 
>>> c.area 
50.26548245743669 
>>> c.perimeter 
Computing perimeter 
25.132741228718345 
>>> c.perimeter 
25.132741228718345 
>>> 


讨论 











pam) 


























文 是 如 何 工作 的 : 


和 “Computing perimeter” 


惰性 求 值 能 力 的 全 部 意义 
否则 就 可 以 避免 进行 无 意义 的 计算 。 


只 打印 了 一 次 。 


就 在 于 提升 程序 性 能 。 例 
AT 25 h BY 














术 符 的 微妙 特性 ， 使 得 能 够 以 高 效 的 方式 























访问 的 属性 不 在 底 
示例 中 的 lazyproperty 类 通过 让 ”get_ 0 方法 以 property Ja 





层 的 实例 字典 中 时 ， 



































时 ,访问 它 的 属性 会 触发 _get__0、 


个 描述 符 只 定义 了 __get_0 方 法 ， 


_ get_() 方 法 才 会 





只 有 当 被 
得 到 调用 。 





属性 相同 的 名 称 来 保存 计算 出 








的 值 。 这么 做 会 让 值 保存 在 实例 字典 中 , 可 以 阻止 该 property 属性 重复 进行 计算 。 仔 细 
观察 下 面 的 示例 就 能 发 现 这 一 点 


>>> c = Circle(4.0) 
>>> # Get instance variables 
>>> vars (c) 


{'radius': 4.0} 





>>> # Compute area and observe variables afterward 
>>> c.area 

Computing area 

50.26548245743669 

>>> vars (c) 

{'area': 50.26548245743669, 'radius': 4.0} 


>>> # Notice access doesn't invoke property anymore 
>>> c.area 
50.26548245743669 


>>> # Delete the variable and see property trigger again 
>>> del c.area 

>>> vars (c) 

{'radius': 4.0} 

>>> c.area 

Computing area 

50.26548245743669 

>>> 





本 方 讨论 的 技术 有 一 个 潜在 的 缺点 ， 即 ， 计 算出 的 值 在 创建 之 后 就 变 成 可 变 的 ( mutable ) 
了 。 示 例如 下 : 


>>> c.area 
Computing area 
50.26548245743669 
>>> c.area = 25 
>>> c.area 

25 

>>> 














如 果 需 要 考虑 可 变性 的 问题 ， 可 以 使 用 另外 一 种 方式 实现 ， 但 执行 效率 会 稍 打折 扣 : 


def lazyproperty (func) : 
name = ' lazy_' + func. name 
@property 
def lazy(self): 
if hasattr (self, name): 
return getattr(self, name) 
else: 
value = func(self) 
setattr(self, name, value) 
return value 
return lazy 


如 果 使 用 这 个 版 本 的 实现 ， 就 会 发 现 set 操作 是 不 允许 执行 的 。 示 例如 下 : 
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>>> c = Circle (4.0) 

>>> c.area 

Computing area 

50.26548245743669 

>>> c.area 

50.26548245743669 

>>> c.area = 25 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 

>>> 





但 是 ， 这 种 方式 的 缺点 就 是 所 有 的 get 操作 都 必须 经 由 属性 的 getter 函数 来 处 理 。 这 比 
直接 在 实例 字典 中 查找 相应 的 值 要 慢 一 些 。 


更 多 有 关 property 和 可 管理 属性 的 信息 ， 请 参见 8.6 节 。 描 述 符 在 8.9 节 已 有 详尽 的 讲解 。 


8.11 简化 数据 结构 的 初始 化 过 程 


8.11.1 问题 

我 们 编写 了 许多 类 ， 把 它们 当做 数据 结构 来 用 。 但 是 我 们 厌倦 了 编写 高 度 重复 且 样 式 
相同 的 _init ORZ 

8.11.2 解决 方案 


通常 我 们 可 以 将 初始 化 数据 结构 的 步 又 归纳 到 一 个 单独 的 _init 0 函数 中 ， 并 将 其 定 
义 在 一 个 公共 的 基 类 中 。 示 例如 下 : 


class Structure: 






































# Class variable that specifies expected fields 
_fields= [] 
def init (self, *args): 
if len(args) != len(self. fields): 
raise TypeError('Expected {} arguments'.format (len(self. fields) )) 


# Set the arguments 
for name, value in zip(self. fields, args): 


setattr(self, name, value) 


# Example class definitions 


if name == ' main_': 





class Stock (Structure): 


_fields = ['name', 'shares', 'price'] 
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class Point (Structure): 
_fields = ['x','y'] 


class Circle (Structure): 
_fields = ['radius'] 
def area(self): 


return math.pi * self.radius ** 2 


如 果 使 用 这 些 类 ， 就 会 发 现 它 们 非常 易于 构建 。 示 例如 下 : 


>>> s = Stock('ACME', 50, 91.1) 
>>> p = Point (2, 3) 
>>> c = Circle(4.5) 
>>> s2 = Stock('ACME', 50) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "structure.py", line 6, in _init_ 

raise TypeError('Expected {} arguments'.format (len(self. fields) ) 

TypeError: Expected 3 arguments 




















我 们 应 该 提供 对 关键 字 参 数 的 文 持 ， 这 里 有 几 种 设计 上 的 选择 。 一 种 选择 就 是 对 关键 














字 参 数 做 映射 ， 这 样 它们 就 只 对 应 于 定义 在 _fields 中 的 属性 名 。 示 例如 下 : 


class Structure: 
_fields= [] 
def init (self, *args, **kwargs): 
if len(args) > len(self. fields): 
raise TypeError('Expected {} arguments'. format (len(self. fields) ) 


# Set all of the positional arguments 
for name, value in zip(self. fields, args): 


setattr(self, name, value) 


# Set the remaining keyword arguments 
for name in self. fields[len(args) :]: 


setattr (self, name, kwargs.pop (name) ) 


# Check for any remaining unknown arguments 
if kwargs: 


raise TypeError('Invalid argument (s): {}'.format(','.join(kwargs) ) 


# Example use 


if name == ' main ': 





class Stock(Structure): 


_fields = ['name', 'shares', 'price'] 
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sl = Stock('ACME', 50, 91.1) 
s2 = Stock('ACME', 50, price=91.1) 
s3 = Stock('ACME', shares=50, price=91.1) 





另 一 种 可 能 的 选择 是 利用 关键 字 参 数 来 给 类 添加 额外 的 
定义 在 _fields 中 的 。 示 例如 下 : 





Hl 


性 ， 





class Structure: 
# Class variable that specifies expected fields 
_fields= [] 
def init__(self, *args, **kwargs): 
if len(args) != len(self. fields): 





这 些 额 外 的 属性 是 没有 


raise TypeError('Expected {} arguments'.format (len(self. fields) )) 


# Set the arguments 
for name, value in zip(self. fields, args): 


setattr(self, name, value) 


# Set the additional arguments (if any) 
extra_args = kwargs.keys() - self. fields 
for name in extra_args: 

setattr(self, name, kwargs.pop (name) ) 
if kwargs: 


raise TypeError('Duplicate values for {}'.format(','.join(kwargs) ) ) 


# Example use 


if name == ' main_': 





class Stock (Structure) : 


_fields = ['name', 'shares', 'price'] 


Il 


sl Stock ('ACME', 50, 91.1) 
s2 = Stock('ACME', 50, 91.1, date='8/2/2012') 


8.11.3 ”讨论 











如 果 要 编写 的 程序 中 有 大 量 小 型 的 数据 结构 ， 那 么 定义 一 个 通 




















用 型 的 _init_0 方 法 会 





特别 有 用 。 相 比 于 下 面 这 样 手 动 编写 每 个 _init 0 方法 ,这 么 做 可 使 得 代码 量 大 大 


class Stock: 
def init (self, name, shares, price): 
self.name = name 


self.shares = shares 


self.price = price 
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class Point: 
def init (self, x, y): 
self.x =x 


self.y = y 


class Circle: 
def init (self, radius): 
self.radius = radius 
def area (self): 
return math.pi * self.radius ** 2 











我 们 给 出 的 实现 中 ， 一 个 微妙 之 处 在 于 使 用 了 setattr0 函 数 来 设 定 属性 值 。 与 之 相反 的 
是 ， 有 人 可 能 会 倾向 于 直接 访问 实例 字典 。 示 例如 下 : 


class Structure: 























# Class variable that specifies expected fields 
_fields= [] 
def init (self, *args): 
if len(args) != len(self. fields): 
raise TypeError('Expected {} arguments'.format (len(self. fields) ) 


# Set the arguments (alternate) 
self. dict_.update(zip(self. fields, args) ) 


尽管 这 么 做 行 得 通 ， 但 像 这 样 假设 子 类 的 实现 通常 是 不 安全 的 。 如 果 某 个 子 类 决定 使 
用 _siots_ 或 者 用 property ( 也 可 以 是 措 述 符 ) 包装 了 某 个 特定 的 属性 ， 直 接 访问 实例 
字典 就 会 产生 月 演 。 我 们 给 出 的 解决 方案 已 经 尽 可 能 地 做 到 通用 ， 不 会 对 子 类 的 实现 
做 任何 假设 。 

这 种 技术 的 一 个 潜在 缺点 就 是 会 影响 到 IDE ( 集成 开发 环境 ) 的 文档 和 帮助 功能 。 如 
果 用 户 针对 某 个 特定 的 类 寻求 帮助 ， 那 么 所 需 的 参数 将 不 会 以 正常 的 形式 来 表述 。 示 
例如 下 : 


>>> help(Stock) 





















































ial 





























Help on class Stock in module main : 
class Stock (Structure) 

E inherited from Structure: 

| 
| _ init__(self, *args, **kwargs) 
| 


>>> 
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这 些 问 题 可 以 通过 在 _init_0 函 数 中 强制 施行 类 型 签名 来 解决 ， 相 关内 容 请 参阅 9.16 W 


应 该 指出 的 是 ， 也 可 以 采用 所 谓 的 “frame hack” 技 巧 来 实现 自动 化 的 实例 变量 初始 化 
处理 ， 只 要 编写 一 个 功能 函数 即 可 。 示 例如 下 : 


def init fromlocals (self): 








import sys 
locs = sys. getframe (1).f locals 
for k, v in locs.items(): 
if k != 'self' 
setattr(self, k, v) 
class Stock: 
def init__(self, name, shares, price): 
init_fromlocals (self) 


EAA, KZ init_fromlocals0O 利 用 sys，getframe0 来 获取 调用 方 的 局 部 变量 。 如 
果 在 _init_() 方 法 中 首先 调用 这 个 函数 ， 那 么 获取 到 的 局 部 变量 就 和 传递 给 _init_(0) 
方法 的 参数 是 一 致 的 ， 可 以 轻松 用 来 设 定 属性 。 尽 管 这 种 方法 可 以 避免 在 IDE 中 出 现 
获取 到 不 一 致 的 调用 签名 问题 ， 但 比 起 解决 方案 中 提供 的 方法 要 慢 上 50%， 也 需要 程 
序 员 输入 更 多 的 代码 ， 这 种 方法 在 幕后 也 做 了 更 加 复杂 的 操作 。 如 果 我 们 的 代码 不 需 
要 这 种 额外 的 能 力 ， 那 么 通常 更 简单 的 方案 会 更 好 。 























8.12 ”定义 一 个 接口 或 抽象 基 类 


8.12.1 问题 

我 们 想 定义 一 个 类 作为 接口 或 者 是 抽象 基 类 ， 这 样 可 以 在 此 之 上 执行 类 型 检查 并 确保 
在 子 类 中 实现 特定 的 方法 。 

8.12.2 解决 方案 

要 定义 一 个 抽象 基 类 ， 可 以 使 用 abe 模块 。 示 例如 下 : 


from abc import ABCMeta, abstractmethod 





class IStream(metaclass=ABCMeta) : 
@abstractmethod 
def read(self, maxbytes=-1): 
pass 
@abstractmethod 
def write(self, data): 
pass 


抽象 基 类 的 核心 特征 就 是 不 能 被 直接 实例 化 。 例 如 ， 如 果 尝 试 这 么 做 ,会 得 到 错 





























TREE : 
a = IStream() # TypeError: Can't instantiate abstract class 
# IStream with abstract methods read, write 


相反 ， 抽 象 基 类 是 用 来 给 其 他 的 类 当做 基 类 使 用 的 ， 这 些 子 类 需要 实现 基 类 中 要 求 的 
那些 方法 。 示 例如 下 : 


class SocketStream(IStream): 

















def read(self, maxbytes=-1): 


def write(self, data): 


抽象 基 类 的 主要 用 途 是 强制 规定 所 需 的 编程 接口 。 例 如 , 一 种 看 待 Stream 基 类 的 方式 
就 是 在 高 层次 上 指定 一 个 接口 规范 ， 使 其 允许 读 取 和 写 人 数据 。 显 式 检查 这 个 接口 的 
代码 可 以 写成 如 下 形式 : 


def serialize(obj, stream): 








if not isinstance(stream, IStream) : 
raise TypeError('Expected an IStream') 





我 们 可 能 会 认为 这 种 形式 的 类 型 检查 只 有 在 子 类 化 抽象 基 类 〈ABC ) 时 才能 工作 , 但 
是 抽象 基 类 也 人 允许 其 他 的 类 向 其 注册 ， 然 后 实现 所 需 的 接口 。 例 如 ， 我 们 可 以 这 样 做 : 


import io 





# Register the built-in I/O classes as supporting our interface 
IStream. register (io. 10Base) 


# Open a normal file and type check 
f = open('foo.txt') 
isinstance(f, IStream) # Returns True 








应 该 提 到 的 是 ，@abstractmethod 同样 可 以 施加 到 静态 方法 、 类 方法 和 property 属性 上 。 
只 要 确保 以 合适 的 顺序 进行 添加 即 可 ， 这 里 @abstractmethod 要 紧 挨 着 函数 定义 。 示 例 
如 下 : 


from abc import ABCMeta, abstractmethod 





class A(metaclass=ABCMeta) : 
@property 
@abstractmethod 
def name(self): 
pass 
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@name.setter 
@abstractmethod 


def name(self, value): 


pass 


@classmethod 

@abstractmethod 

def methodl (cls): 
pass 


@staticmethod 

@abstractmethod 

def method2(): 
pass 


8.12.3 ”讨论 
标准 库 中 已 经 预定 义 好 了 一些 抽 象 基 类 。collections 模块 中 定义 了 多 个 和 容器 还 有 迭代 
器 (序列 、 映 射 、 集 合 等 ) 相关 的 抽象 基 类 。numbers 库 中 定义 了 和 数值 对 象 (整数 、 
浮 点 数 、 复 数 等 ) 相关 的 抽象 基 类 。io 库 中 定义 了 和 VO 处 理 相关 的 抽象 基 类 。 


可 以 使 月 














# Check if x is a sequence 
if isinstance(x, collections.Sequence) : 


# Check if x is iterable 
if isinstance(x, collections.Iterable): 


# Check if x has a size 
if isinstance(x, collections.Sized): 


# Check if x is a mapping 
if isinstance(x, collections.Mapping) : 








应 该 提 到 的 是 ， 在 写作 本 节 时 ， 某 些 库 和 模块 并 没有 像 我 们 所 














好 的 抽象 基 类 。 例 如 : 




















这 些 预 定义 好 的 抽象 基 类 来 执行 更 加 一 般 化 的 类 型 检查 。 下 面 是 一 些 例子 : 


import collections 











期 望 的 那样 利用 预定 义 








280 


from decimal import Decimal 
import numbers 


x = Decimal ('3.4') 


isinstance(x, numbers.Real) # Returns False 


虽然 从 技术 上 说 3.4 是 一 个 实数 , 由 于 我 们 无 意 中 将 浮 点 数 和 小 数 混在 一 起 , 这 里 的 类 
型 检查 没有 起 到 应 有 的 作用 。 因 此 ， 如 果 使 用 了 抽象 基 类 的 功能 ， 明 智 的 做 法 是 仔细 
编写 测试 用 例 来 验证 其 行为 是 否 是 所 期 待 的 。 

尽管 抽象 基 类 使 得 类 型 检查 变 得 更 容易 了 ， 但 不 应 该 在 程序 中 过 度 使 用 它 。Python 的 
核心 在 于 它 是 一 种 动态 语言 ， 它 融 来 了 极 大 的 灵活 性 。 如 果 处 处 都 强制 实行 类 型 约束 ， 
则 会 使 得 代码 变 得 更 加 复杂 ， 而 这 本 不 应 该 如 此 。 我 们 应 该 拥抱 Python 的 灵活 性 。 












































































































































8.13 ”实现 一 种 数据 模型 或 类 型 系统 


8.13.1 问题 

我 们 想 定 义 各 种 各 样 的 数据 结构 ， 但 是 对 于 某 些 特定 的 属性 ， 我 们 想 对 允许 赋 给 它们 
的 值 强 制 添加 一 些 限制 。 

8.13.2 ”解决 方案 

在 这 个 问题 中 ， 基 本 上 我 们 面 对 的 任务 就 是 在 设 定 特定 的 实例 属性 时 添加 检查 或 者 
断言 。 为 了 做 到 这 点 ， 需 要 对 每 个 属性 的 设 定做 定制 化 处 理 ， 因 此 应 该 使 用 描述 符 来 
完成 。 

下 面 的 代码 使 用 描述 符 实现 了 一 个 类 型 系统 以 及 对 值 进行 检查 的 框架 : 


# Base class. Uses a descriptor to set a value 















































class Descriptor: 
def init (self, name=None, **opts): 
self.name = name 
for key, value in opts.items(): 


setattr(self, key, value) 


def set (self, instance, value): 


instance. dict [self.name] = value 


# Descriptor for enforcing types 
class Typed (Descriptor): 
expected_type = type (None) 
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def set (self, instance, value): 
if not isinstance(value, self.expected_type) : 
raise TypeError('expected ' + str(self.expected_type) ) 
super ().__set_ (instance, value) 


# Descriptor for enforcing values 
class Unsigned (Descriptor): 
def set (self, instance, value): 
if value < 0: 
raise ValueError ('Expected >= 0') 
super ().__set_ (instance, value) 


class MaxSized (Descriptor): 
def init (self, name=None, **opts): 
if 'size' not in opts: 
raise TypeError('missing size option') 
super(). init __ (name, **opts) 


def set (self, instance, value): 
if len(value) >= self.size: 
raise ValueError('size must be < ' + str(self.size) ) 
super(). set (instance, value) 


这 些 类 可 作为 构建 一 个 数据 模型 或 者 类 型 系统 的 基础 组 件 。 让 我 们 继续 ， 


码 实现 了 一 些 不 同类 型 的 数据 : 


class Integer (Typed) : 





expected_type = int 


class UnsignedInteger (Integer, Unsigned): 
pass 


class Float (Typed): 
expected_type = float 


class UnsignedFloat (Float, Unsigned): 
pass 


class String (Typed): 
expected_type = str 


class SizedString (String, MaxSized): 
pass 


有 了 这 些 类 型 对 象 ， 现 在 就 可 以 像 这 样 定义 一 个 类 了 : 














下 面 这 些 代 
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class Stock: 
# Specify constraints 
name = SizedString('name',size=8) 
shares = UnsignedInteger('shares') 
price = UnsignedFloat ('price') 


def init__(self, name, shares, price): 


self.name = name 
self.shares = shares 
self.price = pric 























有 了 这 些 约束 后 ， 就 会 发 现 现在 对 属性 进行 赋值 是 会 进行 验证 的 。 示 例如 下 : 


>>> s = Stock('ACME', 50, 91.1) 
>>> s.name 
"ACME' 


>>> s.shares = 75 


1 


>>> s.shares = -10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "example.py", line 17, in _set_ 


super(). set (instance, value) 


File "example.py", line 23, in _set 


raise ValueError('Expected >= 0') 
ValueError: Expected >= 0 
>>> s.price = 'a lot' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "example.py", line 16, in _set_ 


raise TypeError('expected ' + str(self.expected_type) ) 


TypeError: expected <class 'float'> 

>>> s.name = 'ABRACADABRA' 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "example.py", line 17, in _set_ 


super(). set (instance, value) 


File "example.py", line 35, in _ set 


raise ValueError('size must be < ' + str(self.size)) 


ValueError: size must be < 8 
>>> 


可 以 运用 一 些 技 术 来 简化 在 类 中 设 定 约束 的 步 又。 


如 下 : 


# Class decorator to apply constraints 
def check_attributes (**kwargs) : 
def decorate(cls): 








一 种 方法 是 使 用 类 


JE 
AS 


tite, 7N Bil 
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for key, value in kwargs.items(): 
if isinstance(value, Descriptor): 
value.name = key 
setattr(cls, key, value) 
else: 
setattr (cls, key, value(key) ) 
return cls 
return decorate 


# Example 
@check_attributes (name=SizedString (size=8) , 
shares=UnsignedInteger, 
price=UnsignedFloat) 
class Stock: 
def init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


另 一 种 方法 是 使 用 元 类 ， 示 例如 下 : 


# A metaclass that applies checking 





class checkedmeta (type) : 
def new (cls, clsname, bases, methods): 
# Attach attribute names to the descriptors 
for key, value in methods.items(): 
if isinstance(value, Descriptor): 
value.name = key 
return type. new (cls, clsname, bases, methods) 
# Example 
class Stock (metaclass=checkedmeta) : 
name = SizedString(size=8) 
shares = UnsignedInteger () 
price = UnsignedFloat () 
def init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


8.13.3 讨论 

本 节 涉 及 了 好 几 种 高 级 技术 ,包括 描述 符 、mixin 类 、 对 super0 的 使 用 、 类 装饰 器 以 及 
元 类 。 在 这 里 涵盖 所 有 这 些 主题 的 基础 知识 显然 是 不 现实 的 ， 读 者 可 以 在 其 他 章节 中 
找到 相关 的 示例 (参阅 8.9, 8.18, 9.12 以 及 9.19 节 )。 但 是 ， 还 是 有 几 个 微妙 之 处 值 
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得 我 们 讨论 。 

首先 ,在 Descriptor 基 类 中 会 发 现 有 一 个 _set_0 方 法, 但 是 却 没有 与 之 对 应 的 _ get_ 0 
方法 。 如 果 一 个 描述 符 所 做 的 仅仅 只 是 从 底层 的 实例 字典 中 提取 出 具有 相同 名 称 的 
值 , 那么 定义 _get_0 就 是 不 必要 的 了 。 实际 上 , 在 这 里 定义 _get_0 反 而 会 让 程序 运 
行 得 更 慢 。 因 此 ， 本 节 只 会 把 重点 放 在 对 _set_0 的 实现 上 。 

本 节 中 各 个 描述 符 类 的 总 体 设计 是 基于 mixin 类 的 。 例 如 ，Unsigned 和 MaxSized 类 是 
用 来 和 其 他 从 Typed 类 中 继承 而 来 的 描述 符 类 混合 在 一 起 使 用 的 。 要 处 理 某 种 特定 的 
数据 类 型 ， 我 们 使 用 多 重 继承 来 将 所 需要 的 功能 联合 在 一 起 使 用 。 

我 们 也 会 注意 到 所 有 描述 符 的 _ init_0 方 法 已 经 被 编写 为 具有 相同 的 签名 形式 ， 其 中 
涉及 关键 字 参 数 **opts。MaxSized 类 会 在 opts 中 寻找 它 所 需要 的 属性 ， 但 是 会 将 其 传 
递 给 基 类 Descriptor， 然 后 在 基 类 中 完成 实际 的 设 定 。 像 这 样 的 组 合 类 ( 尤其 是 mixin ), 
一 个 环 手 的 地 方 在 于 我 们 并 非 总 是 知道 这 些 类 是 如 何 串联 起 来 的 ， 或 者 superO 到 底 会 
调用 些 什么 。 基 于 这 个 原因 ， 需 要 保证 让 所 有 可 能 出 现 的 组 合 类 都 能 正常 工作 。 
各 种 类 型 类 (type classs ) 的 定义 比如 Integer, Float 以 及 String 展示 了 一 项 有 用 的 技术 ， 
即 ， 使 用 类 变量 来 定制 化 实现 。 描 述 符 Typed 仅仅 是 寻找 一 个 expected_type 属性 ， 该 
属性 是 由 那些 子 类 所 提供 的 。 

使 用 类 装饰 吉 或 者 元 类 和 常常 可 以 简化 用 户 代码 。 我 们 会 发 现在 这 些 例子 中 ， 用 户 不 再 
需要 多 次 输入 属性 名 了 。 示 例如 下 : 


# Normal 
class Point: 























































































































x = Integer('x') 
y = Integer('y') 


# Metaclass 

class Point (metaclass=checkedmeta) : 
x = Integer () 
y = Integer () 


实现 类 装饰 器 和 元 类 的 代码 会 扫描 类 字典 ， 寻 找 描述 符 。 当 找到 描述 符 后 ， 它 们 会 根 
据 键 的 值 自动 填 人 描述 符 的 名 称 。 

在 所 有 方法 中 ， 类 装饰 器 可 以 提供 最 大 的 灵活 性 和 稳健 性 。 第 一 ， 这 种 解决 方案 不 
依赖 于 任何 高 级 的 机 制 ， 比 如 说 元 类 。 第 二 ， 装 饰 器 可 以 很 容易 地 根据 需要 在 类 定 
义 上 添加 或 者 移 除 。 例 如 ， 在 装饰 器 中 ， 可 以 有 一 个 选项 来 简单 地 忽略 掉 添 加 的 
丛 查 机 制 。 这 样 就 能 让 检查 机 制 可 以 根据 需要 随意 打开 或 关闭 ( 调试 环境 对 比 生产 
环境 )。 


最 后 ， 采 用 类 装饰 锅 的 解决 方案 也 可 以 用 来 取代 mixin 类 、 多 重 继 承 以 及 对 super0 函 数 
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的 使 用 。 下 面 就 是 使 用 类 装饰 器 的 备 选 方案 : 


# Base class. Uses a descriptor to set a value 
class Descriptor: 
def init__(self, name=None, **opts): 
self.name = name 
for key, value in opts.items(): 


setattr(self, key, value) 


def set (self, instance, value): 
instance. dict [self.name] = value 


# Decorator for applying type checking 
def Typed(expected_type, cls=None): 
if cls is None: 
return lambda cls: Typed(expected_type, cls) 


super_set = cls. set 
def set (self, instance, value): 
if not isinstance(value, expected_type): 
raise TypeError('expected ' + str(expected_type) ) 
super set (self, instance, value) 
cls. set = _set_ 
return cls 


# Decorator for unsigned values 
def Unsigned(cls): 
super_set = cls. set 
def set (self, instance, value): 
if value < 0: 
raise ValueError ('Expected >= 0') 
super_set (self, instance, value) 
cls. set = set 
return cls 


# Decorator for allowing sized values 
def MaxSized (cls): 
super_init = cls. init 
def init (self, name=None, **opts): 
if 'size' not in opts: 
raise TypeError('missing size option') 
super_init(self, name, **opts) 


cls. init = in 让 


super set = cls. set 
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def set (self, instance, value): 
if len(value) >= self.size: 
raise ValueError('size must be < ' + str(self.size)) 
super set (self, instance, value) 
cls. set = _set_ 
return cls 


# Specialized descriptors 

@Typed (int) 

class Integer (Descriptor) : 
pass 


@Unsigned 
class UnsignedInteger (Integer) : 
pass 


@Typed (float) 
class Float (Descriptor): 
pass 


@Unsigned 
class UnsignedFloat (Float): 
pass 


@Typed (str) 
class String (Descriptor): 
pass 


@MaxSized 
class SizedString (String): 
pass 


在 这 个 备 选 力 案 中 定义 的 类 能 够 像 之 前 那样 以 完全 相同 的 方式 工作 (之 前 的 示例 代码 
都 不 改变 )， 只 是 每 个 部 分 都 会 比 以 前 运行 得 更 快 。 例如 ， 对 设 定 一 个 类 型 属性 做 简单 
的 计时 测试 就 能 发 现 , 采用 类 装饰 器 的 方案 运行 速度 要 比 采 用 mixin 类 的 方案 几乎 快 
上 100%。 读 到 这 里 你 难道 还 会 不 开心 吗 ? 





























8.14 ”实现 自 定义 的 容器 


8.14.1 问题 
我 们 想 实现 一 个 自 定 义 的 类 ,用 来 模仿 普通 的 内 建 容 需 类 型 比如 列表 或 者 字典 的 行为 。 
但 是 ,我们 并 不 完全 确定 需要 实现 什么 方法 来 完成 。 












































类 与 对 象 287 


8.14.2 解决 方案 

collections 库 中 定义 了 各 种 各 样 的 抽象 基 类 ， 当 实现 自 定 义 的 容器 类 时 它们 会 非常 有 
用 。 为 了 说 明 清 楚 ， 假 设 我 们 希望 自己 的 类 能 够 支持 迭代 操作 。 要 做 到 这 点 ， 只 要 简 
单 地 从 collections.Iterable 中 继承 即 可 ， 就 像 下 面 这 样 : 


import collections 





class A(collections.Iterable): 
pass 


从 collections. Iterable PAKKASI ANE AT LR SLA ie PRI E MS 
不 这 么 做 ， 那 么 在 实例 化 时 就 会 得 到 错误 信息 : 


>>> a = A() 


7 也 








Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class A with abstract methods _ iter _ 
>>> 


要 修正 这 个 错误 ， 只 要 在 类 中 实现 所 需 的 _iter_0 方 法 即 可 (参见 4.2 和 4.7 节 )。 

在 collections 库 中 还 有 其 他 一 些 值得 一 提 的 类 ， 包 括 Sequence 、MutableSequence、 
Mapping, MutableMapping, Set 以 及 MutableSet。 这 些 类 中 有 许多 是 按照 功能 层次 的 
递增 来 进行 排列 的 (例如 ，Container Iterable, Sized, Sequence 以 及 MutableSequence 
就 是 一 种 递增 式 的 排列 ) 再 次 说 明 ， 只 要 简单 地 对 这 些 类 进行 实例 化 操作 ， 就 可 以 知 
道 需要 实现 哪些 方法 才能 让 自 定 义 的 容器 具有 相同 的 行为 : 


>>> import collections 








>>> collections .Sequence () 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: Can't instantiate abstract class Sequence with abstract methods \ 
getitem_, _ len 





>>> 








下 面 有 个 简单 的 例子 。 我 们 在 自 定义 类 中 实现 了 上 述 所 需 的 方法 ,创建 了 一 个 Sequence 
类 ， 且 元 素 总 是 以 排序 后 的 顺序 进行 存储 (我们 的 例子 实现 的 不 是 很 高 效 ， 但 能 说 明 
KE ): 


import collections 





























import bisect 


class SortedItems (collections.Sequence) : 
def init (self, initial=None): 
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self. items = sorted(initial) if initial is None else [] 


# Required sequence methods 
def getitem (self, index): 
return self. items [index] 


def len (self): 
return len(self. items) 


# Method for adding an item in the right location 
def add(self, item): 
bisect.insort (self. items, item) 


下 面 是 使 用 这 个 类 的 例子 : 


>>> items = SortedItems([5, 1, 3]) 








>>> list (items) 
[Ley 3] 

>>> items[0] 

1 

>>> items[-1] 

5 

>>> items.add(2) 
>>> list (items) 
[Le 25-373] 

>>> items.add(-10) 
>>> list (items) 
[-10¢ Ly 25-375] 
>>> items[1:4] 
[i23] 

>>> 3 in items 
True 

>>> len (items) 

5 

>>> for n in items: 


print (n) 


-10 


>>> 


可 以 看 到 ，SortedItems 的 实例 所 表现 出 的 行为 和 一 个 普通 的 序列 对 象 完 全 一 样 ， 并 且 
支持 所 有 常见 的 操作 ， 包 括 索引 、 和 迭代 、len0 、 是 否 包 含 (n 操作 符 ) 甚至 是 分 片 。 
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顺便 说 一 句 ， 本 节 中 用 到 的 bisect 模块 能 够 方便 地 让 列表 中 的 元 素 保持 有 序 。 
bisect.insort() 函 数 能 够 将 元 素 插入 到 列表 中 且 让 列表 仍然 保持 有 序 。 
8.14.3 讨论 


从 collections 库 中 提供 的 抽象 基 类 继承 ， 可 确保 我 们 的 自 定义 容器 实现 了 所 有 所 需 的 方 
法 。 但 是 ， 这 种 继承 也 便于 我 们 做 类 型 检查 。 


例如 ， 我 们 的 自 定 义 容 器 将 能 够 满足 各 种 各 样 的 类 型 检查 : 


>>> items = SortedItems () 









































>>> import collections 

>>> isinstance(items, collections.Iterable) 
True 
>>> isinstance(items, collections.Sequence) 
True 
>>> isinstance(items, collections.Container) 
True 
>>> isinstance(items, collections.Sized) 


True 











>>> isinstance(items, collections.Mapping) 
False 
>>> 


collections 模块 中 的 许多 抽象 基 类 还 针对 常见 的 容器 方法 提供 了 默认 实现 。 为 了 说 明 ， 
假设 有 一 个 类 从 collections.MutableSequence 中 继承 而 来 ， 就 像 这 样 : 


class Items (collections.MutableSequence): 
def init (self, initial=None): 


self. items = list (initial) if initial is None else [] 


# Required sequence methods 

def getitem (self, index): 
print ('Getting:', index) 
return self. items [index] 


def setitem (self, index, value): 
print ('Setting:', index, value) 
self. items[index] = value 


def delitem (self, index): 
print ('Deleting:', index) 
del self. items [index] 


def insert (self, index, value): 


print ('Inserting:', index, value) 
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self. items. 


insert (index, value) 


def len (self): 


print ('Len') 


return len(self. items) 


如 果 创建 一 个 Items 实例 ， 就 会 发 现 它 几 乎 支持 列表 所 有 的 核心 方法 (例如 append, 





removeO 、countO 等 )。 








这 些 方法 在 实现 的 时 候 只 使 用 了 所 需要 的 那些 特殊 方法 。 下 面 


的 交互 式 会 话说 明了 这 一 点 : 


>>> a = Items([1, 2, 


>>> len(a) 


>>> a.append (4) 
Len 

nserting: 3 4 
>>> a.append (2) 


Len 





nserting: 4 2 
>>> a.count (2) 
Getting: 0 

Getting: 
Getting: 
Getting: 
Getting: 


Owe UNBE 


Getting: 
2 

>>> a.remove (3) 
Getting: 0 
Getting: 1 
Getting: 2 
Deleting: 2 
>>> 


3]) 








本 闻 仅 仅 只 对 Python 的 抽象 类 功能 做 了 简要 的 介绍 。numbers 模块 中 提供 了 与 数值 数 











据 类 型 相关 的 类 似 的 扣 
参阅 8.12 节 。 





上 象 基 类 。 要 获得 更 多 有 关 如 何 创建 自己 的 抽象 基 类 的 信息 ， 请 


8.15 ”委托 属性 的 访问 


8.15.1 问题 


我 们 想 在 访问 实例 的 属性 时 能 够 将 其 委托 (delegate) 到 一 个 内 部 持 有 的 对 象 上 ， 这 可 
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以 作为 继承 的 蔡 代 方案 或 者 是 为 了 实现 一 种 代理 机 制 。 


8.15.2 ”解决 方案 
简单 地 说 ， 委 托 是 一 种 编程 模式 。 我 们 将 某 个 特定 的 操作 转交 给 ( 委托 ) 另 一 个 不 同 
的 对 象 实现 。 通 常 来 说 ， 最 简单 的 委托 形式 看 起 来 是 这 样 的 : 


class A: 








def spam(self, x): 
pass 


def foo(self): 


pass 
class B: 
def init (self): 
self. a = A() 


def spam(self, x): 
# Delegate to the internal self._a instance 


return self._a.spam(x) 


def foo(self): 
# Delegate to the internal self._a instance 


return self. a.foo() 


def bar(self): 
pass 


如 果 仅 有 几 个 方法 需要 委托 ， 编 写 像 上 面 那样 的 代码 是 非常 简单 的 。 但 是 ， 如 果 有 许 
多 方法 都 需要 委托 ， 另 一 种 实现 方式 是 定义 _getattr_() 方 法 ， 就 像 下 面 这 样 : 


class A: 


















































def spam(self, x): 
pass 


def foo(self): 


pass 
class B: 
def init (self): 
self. a = A() 


def bar(self): 
pass 
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# Expose all of the methods defined on class A 
def getattr (self, name): 
return getattr(self._a, name) 


_ getattr_“() 方 法 能 用 来 查找 所 有 的 属性 。 如 果 代码 中 尝试 访问 一 个 并 不 存在 的 
天 会 调用 这 个 方法 。 在 上 面 的 代码 中 ,我们 在 访问 B 中 未 定义 的 方法 时 就 能 把 
作 委 托 给 A。 示 例如 下 : 

b = B() 


b.bar () # Calls B.bar() (exists on B) 
b.spam(42) # Calls B._getattr_('spam') and delegates to A.spam 

















k 

















委托 的 男 一 个 例子 就 是 在 实现 代理 时 。 示 例如 下 : 


# A proxy class that wraps around another object, but 


# exposes its public attributes 


class Proxy: 
def init (self, obj): 
self._obj = obj 


# Delegate attribute lookup to internal obj 
def getattr (self, name): 

print ('getattr:', name) 

return getattr(self. obj, name) 


# Delegate attribute assignment 
def setattr (self, name, value): 
if name.startswith(' '): 
super(). setattr (name, value) 
else: 
print ('setattr:', name, value) 
setattr(self. obj, name, value) 


# Delegate attribute deletion 
def delattr (self, name): 
if name.startswith(' '): 
super(). delattr (name) 
else: 
print ('delattr:', name) 
delattr(self. obj, name) 


要 使 用 这 个 代理 类 ， 只 要 简单 地 用 它 包 装 男 一 个 实例 即 可 。 示 例如 下 : 


class Spam: 
def init (self, x): 





BHE, 


这 个 操 
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self.x = x 
def bar(self, y): 
print ('Spam.bar:', self.x, y) 


# Create an instance 


s = Spam(2) 


# Create a proxy around it 


p = Proxy (s) 


# Access the proxy 

print (p.x) # Outputs 2 

p.bar (3) # Outputs "Spam.bar: 2 3" 
p.x = 37 # Changes s.x to 37 


通过 自 定义 实现 属性 的 访问 方法 ， 就 可 以 对 代理 进行 定制 化 处 理 ， 让 其 表现 出 不 同 的 
行为 (例如 ,访问 日 志 、 只 允许 内 读 访 问 等 )。 

8.15.3 ”讨论 

委托 有 时 候 可 以 作为 继承 的 替代 方案 。 例 如 ， 不 要 编写 下 面 这 样 的 代码 ; 


class A: 








def spam(self, x): 
print ('A.spam', x) 


def foo(self): 
print ('A.foo') 


class B(A): 
def spam(self, x): 
print ('B.spam') 


super () .spam (x) 


def bar(self): 
print ('B.bar') 


























用 到 了 委托 的 实现 方案 则 会 是 这 样 : 


class A: 
def spam(self, x): 
print ('A.spam', x) 


def foo(self): 
print ('A.foo') 
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class B: 
def init (self): 
self. a = A() 


def spam(self, x): 
print ('B.spam', x) 
self._a.spam(x) 


def bar(self): 
print ('B.bar') 


def getattr (self, name): 
return getattr(self._a, name) 


有 时 候 当 直 接 使 用 继承 可 能 没 多 大 意义 ， 或 者 我 们 想 更 多 地 控制 对 象 之 间 的 关系 〈 例 
如 只 暴露 出 特定 的 方法 、 实 现 接口 等 )， 此 时 使 用 委托 会 很 有 用 。 


当 使 用 委托 来 实现 代理 时 ， 这 里 还 有 几 个 细节 需要 注意 。 首 先 ，_ getattr_(0) 实 际 上 是 
一 个 回 滚 (fallback ) 方法 ， 它 只 会 在 某 个 属性 没有 找到 的 时 候 才 会 调用 。 因 此 ， 如 果 
访问 的 是 代理 实例 本 身 的 属性 〈 例如 本 例 中 的 _obj 属性 )， 这 个 方法 就 不 会 被 触发 调 
用 。 其 次 ，_setattr_0 和 _ delattr_“() 方 法 需要 添加 一 点 额外 的 逻辑 来 区 分 代理 实例 本 
身 的 属性 和 内 部 对 象 _obj 上 的 属性 。 常 用 的 惯例 是 代理 类 只 委托 那些 不 以 下 划 线 开头 
的 属性 〈 即 ， 代 理 类 只 暴露 内 部 对 象 中 的 “公有 ”属性 )。 

同样 需要 重点 强调 的 是 _getattr_“() 方 法 通常 不 适用 于 大 部 分 名 称 以 双 下 划 线 开头 和 结 
尾 的 特殊 方法 。 例 如 ,考虑 下 面 这 个 类 : 

class ListLike: 


def init (self): 


self. items = [] 





















































def getattr (self, name): 
return getattr(self. items, name) 


如 果 尝 试 创建 一 个 ListLike 对 象 ， 就 会 发 现 它 能 支持 常见 的 列表 方法 ， 例 如 append’ 
和 insert0。 但 是 ， 却 无 法 支持 len0 、 查 找 元 素 等 操作 。 示 例如 下 : 


>>> a = ListLike() 





>>> a.append (2) 
>>> a.insert(0, 1) 
>>> a.sort () 
>>> len(a) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: object of type 'ListLike' has no len() 


>>> a[0] 
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Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'ListLike' object does not support indexing 


>>> 


要 支持 不 同 的 操作 ， 必 须 自行 手动 委托 相应 的 特殊 方法 。 示 例如 下 : 


class ListLike: 
def init (self): 
self. items = [] 
def getattr (self, name): 
return getattr(self. items, name) 


# Added special methods to support certain list operations 
def len (self): 
return len(self. items) 
def getitem (self, index): 
return self. items [index] 
def setitem (self, index, value): 
self. items[index] = value 
def delitem (self, index): 
del self. items [index] 


请 参见 11.8 节 中 的 另 一 个 例子 ， 我 们 在 创建 代理 类 时 利用 委托 来 完成 远 端 过 程 调用 。 








8.16 在 类 中 定义 多 个 构造 函数 


8.16.1 问题 

我 们 正在 编写 一 个 类 ， 但 是 想 让 用 户 能 够 以 多 种 方式 创建 实例 ， 而 不 局 限于 _init_0) 
提供 的 这 一 种 。 

8.16.2 ”解决 方案 

要 定义 一 个 含有 多 个 构造 函数 的 类 ， 应 该 使 用 类 方法 。 下 面 是 一 个 简单 的 示例 : 


import time 
































class Date: 
# Primary constructor 
def init (self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 
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# Alternate constructor 
@classmethod 
def today(cls): 
t = time. localtime() 
return cls(t.tm_year, t.tm_mon, t.tm_mday) 


要 使 用 这 个 备 选 的 构造 函数 ， 只 要 把 它 当 做 函数 来 调用 即 可 ， 例 如 Date.today(). AN Bil 
如 下 : 


a = Date(2012, 12, 21) # Primary 
b = Date.today () # Alternate 


8.16.3 ”讨论 
类 方法 的 一 大 主要 用 途 就 是 定义 其 他 可 选 的 构造 函数 。 类 方法 的 一 个 关键 特性 就 是 把 
类 作为 其 接收 的 第 一 个 参数 (cls )。 我 们 会 注意 到 ， 类 方法 中 会 用 到 这 个 类 来 创建 并 返 
回 最 终 的 实例 。 尽 管 十 分 微不足道 ， 但 正 是 这 一 特性 使 得 类 方法 能 够 在 继承 中 被 正确 
使 用 。 示 例如 下 : 


class NewDate (Date): 




















pass 

c = Date.today() # Creates an instance of Date (cls=Date) 

d = NewDate.today() # Creates an instance of NewDate (cls=NewDate) 
当 定 义 一 个 有 着 多 个 构造 函数 的 类 时 ， 应 该 让 _init 0 函数 尽 可 能 简单 一 一 除了 给 属 
性 赋值 之 外 什么 都 不 做 。 如 果 需 要 的 话 ， 可 以 在 其 他 备 选 的 构造 函数 中 选择 实现 更 高 





级 的 操作 。 


与 单独 定义 一 个 类 方法 不 同 的 是 ， 我 们 可 能 会 倾向 于 让 _init _0 方 法 支持 不 同 的 调 月 
约定 。 示 例如 下 : 


class Date: 




















ay 


def init__(self, *args): 
if len(args) == 0: 
t = time. localtime() 
args = (t.tm_year, t.tm mon, t.tm_mday) 


self.year, self.month, self.day = args 
尽管 这 种 技术 在 某 些 情况 下 是 行 得 通 的 ， 但 常常 会 使 代码 变 得 难以 理解 也 不 好 维护 。 
比如 说 ， 这 种 实现 不 会 展示 出 有 用 的 帮助 字符 串 (没有 参数 名 称 )。 此 外 ， 创 建 Date 
实例 的 代码 也 会 变 得 不 那么 清晰 。 比 较 下 面 几 种 方式 就 能 很 容易 看 出 区 别 : 


a = Date(2012, 12, 21) # Clear. A specific date. 
b = Date() # ??? What does this do? 
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# Class method version 


c = Date.today () # Clear. Today's date. 








根据 上 面 的 示例 ，Date.today0 会 调用 Date. init 0) 方法， 以 合适 的 年 份 、 月 份 和 日 期 
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8.17 不 通过 调用 init 来 创建 实例 
8.17.1 问题 
我 们 需要 创建 一 个 实例 ,但 是 出 于 某 些 原因 想 绕 过 _init_() 方 法 ， 用 别 的 方式 来 创建 


8.17.2 解决 方案 
可 以 直接 调用 类 的 _new__0 方 法 来 创建 一 个 未 初始 化 的 实例 。 例 如 ， 考 虑 下 面 这 


个 类 : 





























o 


class Date: 
def init (self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 





采用 下 面 的 方法 可 以 在 不 调用 _init_0 的 情况 下 创建 一 个 Date 实例 : 


>>> d = Date. new (Date) 
>>> d 





<_main_.Date object at 0x1006716d0> 

>>> d.year 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


AttributeError: 'Date' object has no attribute 'year' 
>>> 


可 以 看 到 ， 得 到 的 实例 是 未 经 初始 化 的 。 因 此 ， 给 实例 变量 设 定 合 适 的 初始 值 现 在 就 
成 了 我 们 的 责任 。 示 例如 下 : 
>>> data = {'year':2012, 'month':8, 'day':29} 


>>> for key, value in data.items(): 
setattr(d, key, value) 








>>> d.year 
2012 
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>>> d.month 
8 
>>> 


8.17.3 ”讨论 

当 需 要 以 非 标准 的 方式 来 创建 实例 时 常常 会 遇 到 需要 绕 过 _init_0 的 情况 。 比 如 反 序 
列 化 (deserializing ) 数据 ， 或 者 实现 一 个 类 方法 将 其 作为 备 选 的 构造 函数 ， 都 属于 这 
种 情况 。 例 如 , 在 前 面 给 出 的 Date 类 中 , 有 人 可 能 会 定义 一 个 可 选 的 构造 函数 today0: 


from time import localtime 








class Date: 
def init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


@classmethod 

def today(cls): 
d = cls. new (cls) 
t = localtime () 
d.year = t.tm year 
d.month = t.tm mon 
d.day = t.tm mday 
return d 


类 似 地 ， 假 设 正在 反 序 列 化 JSON 数据 ， 要 产生 一 个 下 面 这 样 的 字典 : 


data = { 'year': 2012, 'month': 8, 'day': 29 } 


如 果 想 将 这 个 字典 转换 为 一 个 Date 实例 ， 只 要 使 用 解决 方案 中 给 出 的 技术 即 可 。 

当 需 要 以 非 标准 的 方式 创建 实例 时 ， 通 常 最 好 不 要 对 它们 的 实现 做 过 多 假设 。 因 此 ， 
一 般 来 说 不 要 编写 直接 操纵 底层 实例 字典 _dict_ 的 代码 ， 除 非 能 保证 它 已 被 定义 。 否 
则 ， 如 果 类 中 使 用 了 __slots。” 、property 属性 、 描 述 符 或 者 其 他 高 级 技术 ,那么 代码 就 
会 朋 溃 。 通 过 使 用 setattr0 来 为 属性 设 定 值 ， 代 码 就 会 尽 可 能 的 通用 。 









































8.18 FA Mixin 技术 来 扩展 类 定义 


8.18.1 问题 
我 们 有 一 些 十 分 有 用 的 方法 ,希望 用 它们 来 扩展 其 他 类 的 功能 。 但是， 需要 添加 方法 
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的 这 些 类 之 间 并 不 一 定 属于 继承 关系 。 因 此 ， 没 法 将 这 些 方法 直接 关联 到 一 个 共同 的 
基 类 上 。 


8.18.2 解决 方法 

本 节 提 到 的 问题 在 需要 对 类 进行 定制 化 处 理 时 通常 会 出 现 。 例 如 ， 某 个 库 提 供 了 一 组 
基础 类 以 及 一 些 可 选 的 定制 化 方法 ， 如 果 用 户 需 要 的 话 可 以 自行 添加 。 

为 了 说 明 清 楚 ， 现 在 假设 我 们 有 兴趣 将 各 式 各 样 的 定制 化 处 理 方法 ( 例如， 日 志 记 录 、 
类 型 检查 等 ) 添加 到 映射 型 对 象 (mapping object) 上 。 下 面 有 一 组 mixin 类 来 完成 这 
项 任务 : 


class LoggedMappingMixin: 


vit 

















Add logging to get/set/delete operations for debugging. 


_ slots_ = () 


def getitem (self, key): 
print ('Getting ' + str(key)) 
return super(). getitem (key) 


def _setitem_(self, key, value): 
print ('Setting {} = {!r}'. format (key, value) ) 
return super(). setitem (key, value) 


def delitem (self, key): 
print ('Deleting ' + str(key)) 
return super(). delitem (key) 


class SetOnceMappingMixin: 


vit 


Only allow a key to be set once. 
mes 
_ slots_ = () 
def _setitem_(self, key, value): 
if key in self: 
raise KeyError(str(key) + ' already set') 
return super(). setitem (key, value) 


class StringKeysMappingMixin: 


vit 


Restrict keys to strings only 


vit 


_ slots_ = () 
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def _setitem_(self, key, value): 
if not isinstance(key, str): 
raise TypeError('keys must be strings') 
return super(). setitem (key, value) 


这 些 类 本 身 是 无 用 的 。 实 际 上 ， 如 果实 例 化 它们 中 的 任何 一 个 ， 





Kea 








>>> class LoggedDict (LoggedMappingMixin, dict): 
pass 


>>> d = LoggedDict () 


>>> d['x'] = 23 
Setting x = 23 
>>> d['x'] 
Getting x 

23 


>>> del d['x'] 
Deleting x 


>>> from collections import defaultdict 
>>> class SetOnceDefaultDict (SetOnceMappingMixin, defaultdict): 


pass 


>>> d = SetOnceDefaultDict (list) 


>>> d['x'].append (2) 
>>> d['y'].append (3) 
>>> d['x!'].append(10) 
>>> d['x'] = 23 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 24, in _setitem_ 
raise KeyError(str(key) + ' already set') 


KeyError: 'x already set' 


>>> from collections import OrderedDict 
>>> class StringOrderedDict (StringKeysMappingMixin, 
SetOnceMappingMixin, 
OrderedDict) : 
pass 


>>> d = StringOrderedDict () 
>>> d['x'] = 23 
>>> d[42] = 10 


一 点 儿 有 用 的 


做 不 了 (除了 会 产生 异常 之 外 )。 相 反 ， 这 些 类 存在 的 意义 是 要 和 其 他 映射 型 类 
继承 的 方式 混合 在 一 起 使 用 。 示 例如 下 : 


da 
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Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "mixin.py", line 45, in _setitem_ 


vit 


TypeError: keys must be strings 
>>> d['x'] = 42 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 46, in _setitem_ 
_slots = () 
File "mixin.py", line 24, in _setitem_ 
if key in self: 
KeyError: 'x already set' 
>>> 


在 上 面 的 示例 中 ， 可 以 发 现 这 些 mixin 类 和 其 他 已 有 的 类 (例如: dict, defaultdict, 
OrderedDict ) 结合 在 了 一 起 。 当 它们 混合 在 一 起 时 ， 所 有 的 类 通过 一 起 工作 提供 所 需 
的 功能 。 


8.18.3 讨论 

Python 标准 库 中 到 处 都 是 mixin 类 的 身影 ， 大 部 分 都 是 为 了 扩展 其 他 类 的 功能 而 创建 
的 ， 就 和 我 们 展示 的 示例 类 似 。mixin 类 也 是 多 重 继 承 的 主要 用 途 之 一 。 例如， 如 果 正 
在 编写 网 络 功能 方面 的 代码 ， 通 常 可 以 使 用 socketserver 模块 中 的 ThreadingMixIn 类 
来 为 其 他 网 络 相 关 的 类 添加 对 线程 的 支持 。 例 如 ， 下 面 是 一 个 多 线程 版 的 XML-RPC 服 
Fii: 


from xmlrpc.server import SimpleXMLRPCServer 


















































from socketserver import ThreadingMixIn 
class ThreadedXMLRPCServer (ThreadingMixIn, SimpleXMLRPCServer) : 
pass 


我 们 在 大 型 的 库 和 框架 中 也 能 常 看 到 mixin 类 
加 一 些 可 选 的 功能 特性 。 

关于 mixin 类 的 理论 , 历史 上 有 着 许多 讨论 。 但 是 ,我们 不 再 深入 挖掘 所 有 的 细节 ， 只 
需要 记 住 几 个 重要 的 实现 细节 就 够 了 。 

首先 ，mixin 类 绝 不 是 为 了 直接 实例 化 而 创建 的 。 例 如 ， 本 节 中 所 有 的 mixin 类 都 不 能 
独自 工作 。 它 们 必须 同 男 一 个 实现 了 所 需 的 映射 功能 的 类 混合 在 一 起 用 才 行 。 同 样 地 ， 
socketserver 模块 中 的 ThreadingMixIn 类 也 必须 同 某 个 合适 的 server 类 混合 在 一 起 用 才 
行 一 一 光 靠 它 自己 没 用 。 

其 次 ，mixin 类 一 般 来 说 是 没有 状态 的 。 这 意味 着 mixin ŽA init 0) 方法， 也 没有 


同样 地 ,一般 都 是 为 了 对 已 有 的 类 增 
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实例 变量 。 在 本 节 中 ,我 们 定义 的 _slots = 0 就 是 一 种 强烈 的 提示 ， 这 表示 mixin 类 
没有 属于 自己 的 实例 数据 。 


如 果 考 虑 定义 一 个 拥有 __init_() 方 法 以 及 实例 变量 的 mixin 类 , 请 注意 这 里 会 有 极 大 的 
风险 ， 因 为 这 个 类 并 不 知道 自己 要 和 哪些 其 他 的 类 混合 在 一 起 。 因 此 ， 任 何 要 创建 出 
的 实例 变量 都 必须 以 某 种 方式 加 以 命名 ， 以 此 避免 出 现 命 名 冲突 。 此 外 ，mixin 类 的 
_ init_() 方 法 必须 要 能 合适 地 调用 其 他 混合 进来 的 类 的 _init_ (0 方法。 一 般 来 说 这 很 
难 实现 ， 因 为 不 知道 其 他 类 的 参数 签名 是 什么 。 至 少 ， 我 们 必须 得 实现 非常 通用 的 参 
数 签 名 ， 这 需要 用 到 *arg 、**kwargs。 如 果 mixin 类 的 _ init 0 方法 自身 还 带 有 参数 ， 
那么 那些 参数 应 该 只 能 通过 关键 字 来 指定 ， 并 且 在 命名 上 还 得 和 其 他 参数 区 分 开 ， 避 
免 命 名 冲突 。 对 于 定义 了 一 个 _init_0 方 法 且 接 受 一 个 关键 字 参 数 的 mixin 类 ， 下 面 给 
出 了 一 种 可 能 的 实现 方法 : 


class RestrictKeysMixin: 










































































def init (self, *args, restrict key type, **kwargs): 
self. restrict_key_type = restrict key type 


super(). init (*args, **kwargs) 


def _setitem_(self, key, value): 
if not isinstance(key, self. restrict key type): 
raise TypeError('Keys must be ' + str(self. restrict key type) ) 





super().__setitem_ (key, value) 


下 面 的 例子 展示 了 这 个 类 应 该 如 何 使 用 : 


>>> class RDict (RestrictKeysMixin, dict): 








pass 


>>> d = RDict (_restrict_key_type=str) 

>>> e = RDict([('name','Dave'), ('n',37)], _restrict_key_type=str) 
>>> f = RDict (name='Dave', n=37, _restrict_key_type=str) 

>>> f 

{'n': 37, 'name': 'Dave'} 


>>> £[42] = 10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 83, in _setitem_ 
raise TypeError('Keys must be ' + str(self. restrict key type) ) 
TypeError: Keys must be <class 'str'> 
>>> 











在 这 个 例子 中 , 可 以 注意 到 初始 化 RDictO 时 仍然 带 有 可 被 dictO 所 接受 的 参数 , 但 是 有 
一 个 额外 的 关键 字 参 数 restrict_key_type 是 提供 给 mixin 类 的 。 
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最 后 , 使 用 super0 函 数 是 必要 的 , 这 也 是 编写 mixin 类 的 关键 部 分 。 在 解决 方案 中 , 这 
些 类 重新 定义 了 一 些 特定 的 关键 方法 ， 比 如 ”getitem” (和 setitem 0O。 但是， 它们 
也 需要 调用 这 些 方法 的 原始 版 本 。 通 过 使 用 super0 ， 将 这 个 任务 转交 给 了 方法 解析 顺 
FR (MRO) 上 的 下 一 个 类 。 本 节 中 的 这 部 分 内 容 对 于 Python 新 手 来 说 可 能 不 是 那么 容 
易 理 解 ， 因 为 我 们 在 没有 父 类 的 类 中 使 用 了 supero ( 初 看 上 去 感觉 好 像 是 个 错误 )。 
但 是 ， 对 于 类 似 下 面 这 样 的 类 定义 : 


class LoggedDict (LoggedMappingMixin, dict): 









































pass 





在 LoggedMappingMixin 中 使 用 superO 函 数 会 把 任务 转交 到 多 重 继承 列表 中 的 下 一 个 类 
上 。 也 就 是 说 ， 在 LoggedMappingMixin 中 调用 super0. getitem 0 实际 上 会 调用 
dict， getitem 0。 如 果 没 有 这 种 行为 ，mixin 类 根本 没 法 正常 工作 。 
实现 mixin 的 另 一 种 方法 是 利用 类 装饰 器 。 例 如 ， 考 虑 如 下 的 代码 : 


def LoggedMapping (cls) : 




















cls_getitem = cls. getitem 
cls setitem = cls. setitem _ 
cls delitem = cls. delitem 


def getitem (self, key): 
print ('Getting ' + str(key)) 
return cls_getitem(self, key) 


def _setitem_(self, key, value): 
print ('Setting {} = {!r}'.format (key, value) ) 
return cls_setitem(self, key, value) 


def _delitem_ (self, key): 
print ('Deleting ' + str (key)) 
return cls_delitem(self, key) 























cls. getitem = _getitem 
cls. setitem = _setitem 
cls. delitem = _delitem 
return cls 
我 们 把 这 个 函数 作为 装饰 器 添加 到 类 定义 上 。 例 如 : 
@LoggedMapping 


class LoggedDict (dict): 
pass 








如 果 试 着 这 么 做 ， 就 会 发 现 能 得 到 相同 的 行为 ， 但 是 却 完 全 不 再 涉及 多 重 继承 了 。 相 
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aay 


饰 器 的 更 多 细节 可 在 9.12 节 中 找到 。 


VN 


8.13 节 中 有 一 个 高 级 的 示例 ， 其 中 同时 用 到 了 mixin BORA ae o 


8.19 ”实现 带 有 状态 的 对 象 或 状态 机 


8.19.1 


问题 


我 们 想 实 现 一 个 状态 机 ， 或 者 让 对 象 可 以 在 不 同 的 状态 中 进行 操作 。 但 是 我 们 并 不 希 


望 代 码 里 会 因此 出 现 大 量 的 条 件 判 断 。 
8.19.2 ”解决 方案 


在 某 些 应 用 程序 中 ， 我 们 可 能 会 让 对 象 根据 某 种 内 部 状态 来 进行 不 同 的 操作 。 例 如 ， 





考虑 下 面 这 个 代表 网 络 连 接 的 类 : 


class Connection: 
def init (self): 


self.state = 'CLOSED' 
def read(self): 
if self.state != 'OPEN': 


raise RuntimeError('Not open') 


print ('reading') 


def write(self, data): 
if self.state != 'OPEN': 


raise RuntimeError('Not open') 


print ('writing') 


def open(self): 


if self.state == 'OPEN': 


raise RuntimeError('Already open') 


self.state = 'OPEN' 
def close(self): 
if self.state == 'CLOSED': 
raise RuntimeError('Already c 


self.state = 'CLOSED' 








osed') 








这 份 代码 为 我 们 提出 了 几 个 难题 。 首 先 ， 








于 代码 中 引入 了 许多 针对 状态 的 条 件 检查 





代码 变 得 很 复杂 。 其 次 ,程序 的 性 能 下 降 了 。 




















总 是 要 在 处 理 前 先 检查 状态 。 


因为 普通 的 操作 如 读 (reado ) 和 写 ( write0 ) 
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一 个 更 加 优雅 的 方式 是 将 每 种 操作 状态 以 一 个 单独 的 类 来 定义 ， 然 后 在 Connection 类 
中 使 用 这 些 状态 类 。 示 例如 下 : 
class Connection: 


def init (self): 
self.new_ state (ClosedConnectionState) 


def new state(self, newstate): 


self. state = newstate 


# Delegate to the state class 
def read(self): 
return self. state.read(self) 


def write(self, data): 
return self. state.write(self, data) 


def open(self): 
return self. state.open (self) 





def close(self): 











return self. state.close(self) 


# Connection state base class 
class ConnectionState: 
@staticmethod 
def read(conn): 
raise NotImplementedError () 


@staticmethod 
def write(conn, data): 
raise NotImplementedError () 


@staticmethod 
def open (conn): 
raise NotImplementedError () 


@staticmethod 
def close (conn): 
raise NotImplementedError () 


# Implementation of different states 

class ClosedConnectionState (ConnectionState) : 
@staticmethod 
def read(conn): 
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raise RuntimeError('Not open') 


@staticmethod 
def write(conn, data): 
raise RuntimeError('Not open') 


@staticmethod 
def open (conn): 
conn.new_state (OpenConnectionState) 


@staticmethod 
def close(conn): 
raise RuntimeError('Already closed') 


class OpenConnectionState (ConnectionState) : 
@staticmethod 
def read(conn): 
print ('reading') 


@staticmethod 
def write(conn, data): 
print ('writing') 


@staticmethod 
def open (conn): 
raise RuntimeError('Already open') 


@staticmethod 
def close(conn): 
conn.new_ state (ClosedConnectionState) 


下 面 的 交互 式 会 话说 明了 这 些 类 的 用 法 : 


>>> c = Connection () 

>>> c. state 

<class ' main _.ClosedConnectionState'> 

>>> c.read() 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 10, in read 

return self. state.read(self) 
File "example.py", line 43, in read 
raise RuntimeError('Not open') 

RuntimeError: Not open 


>>> c.open() 
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>>> c. state 

<class '_main_.OpenConnectionState'> 
>>> c.read() 

reading 

>>> c.write('hello') 

writing 

>>> c.close() 

>>> c. state 

<class ' main _.ClosedConnectionState'> 
>>> 


8.19.3 讨论 
编写 含有 大 量 复杂 的 条 件 判 断 并 和 各 种 状态 纠缠 在 一 起 的 代码 是 难以 维护 和 解读 的 。 
本 节 给 出 的 解决 方案 通过 将 各 个 状态 分 解 为 单独 的 类 来 避免 这 个 问题 。 
可 能 看 起 来 有 些 奇怪 ， 这 里 每 种 状态 都 用 类 和 静态 方法 来 实现 ， 在 每 个 静态 方法 中 都 
把 Connection 类 的 实例 作为 第 一 个 参数 。 产 生 这 种 设计 的 原因 在 于 我 们 决定 在 不 同 的 
状态 类 中 不 保存 任何 实例 数据 。 相 反 ， 所 有 的 实例 数据 应 该 保存 在 Connection 实例 中 。 
将 所 有 的 状态 放 在 一 个 公共 的 基 类 下 ， 这么 做 的 大 部 分 原因 是 为 了 帮助 组 织 代 码 ， 并 
确保 适当 的 方法 得 到 了 实现 。 在 基 类 方法 中 出 现 的 NotImplementedError 异常 是 为 了 确 
保 在 子 类 中 实现 了 所 需 的 方法 。 作 为 替代 方案 ， 可 以 考虑 使 用 8.12 节 中 描述 过 的 抽象 
基 类 O 
Fi LTE EFS EREK _class_J&VE. maT : 

class Connection: 


def init (self): 


self.new_state(ClosedConnection) 













































































def new state(self, newstate): 


self. class = newstate 


def read(self): 
raise NotImplementedError 


def write(self, data): 
raise NotImplementedError 


def open(self): 


raise NotImplementedError 





def close(self): 





raise NotImplementedError 
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class ClosedConnection (Connection): 
def read(self): 
raise RuntimeError('Not open') 
def write(self, data): 
raise RuntimeError('Not open') 


def open (self) : 
self.new_state (OpenConnection) 


def close(self): 
raise RuntimeError('Already closed') 


class OpenConnection (Connection): 
def read(self): 
print ('reading') 


def write(self, data): 
print ('writing') 


def open(self): 
raise RuntimeError('Already open') 


def close(self): 
self.new_state(ClosedConnection) 

















这 种 实现 方法 的 主要 特点 就 是 消除 了 额外 的 间接 关系 。 这 里 不 再 将 Connection 和 
ConnectionState 作为 单独 的 类 来 实现 ,现在 我 们 将 它们 合并 在 一 起 了 。 随 着 状态 的 改 
变 ， 实 例 也 会 修改 自己 的 类 型 。 示 例如 下 : 


>>> c = Connection() 





>>> c 
<_main_.ClosedConnection object at 0x1006718d0> 
>>> c.read() 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "state.py", line 15, in read 

raise RuntimeError('Not open') 

RuntimeError: Not open 
>>> c.open() 
>>> c 
<_main_.OpenConnection object at 0x1006718d0> 
>>> c.read() 
reading 


>>> c.close() 
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>>> C 


<_main_.ClosedConnection object at 0x1006718d0> 


>>> 























TEAL] Rf Be Se IT EAS EP EL BEE BY class JR VERY WOE. (EE TEBOR 


























是 允许 这 么 做 的 。 此 外 , 这 么 做 也 会 





让 代码 的 执行 速度 更 快 些 , 因为 现在 调用 connection 


上 的 所 有 方法 都 不 必 再 经 过 一 层 额 外 的 间接 步 又 了 


最 后 ， 无 论 上 面 哪 种 技术 对 于 实现 复杂 的 状态 机 都 是 很 有 用 的 一 一 尤其 是 在 那些 可 
出 现 大 量 的 if-elif-else 块 的 代码 中 。 示 例如 下 : 








# Original implementation 
class State: 
def init (self): 
self.state = 'A' 
def action(self, x): 
if state == 'A': 
# Action for A 


state = 'B' 
elif state == 'B' 
# Action for B 


state = 'C' 
elif state == 'C!: 

# Action for C 

state = 'A! 


# Alternative implementation 
class State: 
def init (self): 
self.new_state (State A) 


def new state(self, state): 


self. class = state 


def action(self, x): 





raise NotImplementedError () 


class State A(State): 
def action(self, x): 
# Action for A 


self.new_state (State B) 
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class State _B(State): 
def action(self, x): 
# Action for B 


self.new_state (State C) 
class State _C(State): 
def action(self, x): 


# Action for C 


self.new_ state (State A) 

















本 节 大 体 上 是 基于 Design Patterns: Elements of Resuable Object-Oriented Software 
( Addison-Wesley, 1995 ) 一 书 中 有 关 状 态 模式 的 内 容 来 编写 的 。 

















8.20 调用 对 象 上 的 方法 , 方法 名 以 字符 串 形式 给 出 


8.20.1 问题 

我 们 想 调 用 对 象 上 的 某 个 方法 ， 现 在 这 个 方法 名 保存 在 字符 串 中 ， 我 们 想 通过 它 来 调 
用 该 方法 。 

8.20.2 ”解决 方案 

对 于 简单 的 情况 ， 可 能 会 使 用 getattr0)， 示 例如 下 : 


import math 





























class Point: 
def init (self, x, y): 
self.x = x 


self.y =y 


def repr (self): 
return 'Point({!r:},{!r:})'.format (self.x, self.y) 


def distance(self, x, y): 
return math.hypot (self.x - x, self.y - y) 


p = Point (2, 3) 
d = getattr(p, 'distance') (0, 0) # Calls p.distance(0, 0) 





另 一 种 方法 是 使 用 operator.methodcaller(). ANP GNF : 
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import operator 


operator.methodcaller('distance', 0, 0) (p) 


如 果 想 通过 名 称 来 查询 方法 并 提供 同样 的 参数 反复 调用 该 方法 ,那么 operatormethodcall0 是 





很 有 用 的 。 例 如 ， 如 果 你 要 对 一 整 列 点 对 象 排序 : 


points = 
Point(1, 2), 
Point (3, 0), 
Point (10, -3), 
Point (-5, -7), 
Point (-1, 8), 
Point (3, 2) 





] 





# Sort by distance from origin (0, 0) 


points .sort (key=operator.methodcaller('distance', 0, 0)) 


8.20.3 


讨论 





调用 一 个 方法 实际 上 涉及 两 个 单独 的 步 又 ,一 是 查询 属性 ， 二 是 机 数 调 用 。 因 此 ， 要 
调用 一 个 方法 ， 可 以 使 用 getattr0 来 查询 相应 的 属性 。 要 调用 查询 到 的 方法 ， 只 要 把 查 





询 的 结 


operatormethodcall0 创 建 了 一 个 可 调 月 


当做 函数 即 可 。 
































对象 ， 而 且 把 所 需 的 参数 提供 给 了 被 调用 的 方 





法 。 我 们 所 要 做 的 就 是 提供 恰当 的 self 参数 即 可 。 示 例如 下 : 


>>> p 


= Point (3, 4) 


>>> d = operator.methodcaller('distance', 0, 0) 


>>> d(p) 


5.0 
>>> 





通过 包含 在 字符 串 中 的 名 称 来 调用 方法 ， 这 种 方式 时 常 出 现在 需要 模拟 case 语句 或 者 
访问 者 模式 的 变 体 中 。 下 一 节 中 将 有 更 加 高 级 的 示例 。 


8.21 
8.21.1 


我 们 需要 编写 代码 来 处 理 或 遍历 





实现 访问 者 模式 


问题 





个 





日 许多 不 同类 型 的 对 象 组 成 的 复杂 数据 结构 ， 




















种 类 型 的 对 象 处 理 的 方式 都 不 相同 。 例 如 饥 历 一 个 树 结 构 ， 根 据 遇 到 的 树 节 点 的 类 型 
来 执行 不 同 的 操作 。 
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8.21.2 ”解决 方案 

本 节 提 到 的 这 个 问题 常常 出 现在 由 大 量 不 同类 型 的 对 象 组 成 的 数据 结构 的 程序 中 。 为 
了 说 明 ， 假 设 我 们 正在 编写 一 个 表示 数学 运算 的 程序 。 要 实现 这 个 功能 ， 程 序 中 会 用 
到 一 些 类 ， 示 例如 下 : 


class Node: 






































pass 


class UnaryOperator (Node): 
def init (self, operand): 


self.operand = operand 


class BinaryOperator (Node): 
def init (self, left, right): 
self.left = left 
self.right = right 


class Add(BinaryOperator) : 
pass 


class Sub(BinaryOperator) : 
pass 


class Mul (BinaryOperator) : 
pass 


class Div(BinaryOperator) : 
pass 


class Negate (UnaryOperator) : 
pass 


class Number (Node) : 
def init (self, value): 


self.value = value 


之 后 ,我们 可 以 用 这 些 类 来 构建 说 套 式 的 数据 结构 ， 就 像 这 样 : 


# Representation of 1 +2 * (3-4)/5 
tl = Sub (Number (3), Number (4)) 

t2 = Mul (Number (2), t1) 

t3 = Div(t2, Number (5)) 

t4 = Add (Number (1), t3) 


TTF 
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问题 不 在 创建 这 些 数据 结构 上 ， 而 是 在 稍 后 编写 处 理 它 们 的 代码 时 。 例 如 ， 给 定 一 个 


表达 式 ， 程 序 可 能 要 做 很 多 习 


翻译 等 fo} 
为 了 能 让 处 理 过 程 变 
们 需要 使 用 类 似 下 面 


class NodeVisitor: 





` 


得 








4 


def visit (self, node): 


methname = 


meth = getattr (self, methname, None) 














'visit_' + type (node). name 


if meth is None: 


meth = self.generic_visit 


return meth (node) 


def generic_visit (self, node): 


raise RuntimeError ('No 


要 使 用 这 个 类 ， 程 序 员 从 该 类 中 继承 并 实现 各 种 visit Name() 方 法 ， 这 里 的 Name 应 该 
由 节点 的 类 型 来 替换 。 例 如 ， 如 果 想 对 表达 式 求 值 ， 那 么 可 以 编写 这 样 的 代码 : 


class Evaluator (NodeVisitor): 





def visit Numb 


er 


return node.value 


def visit_Add 
return se 


def visit_Sub 
return se 


def visit Mul 
return se 


def visit Div 
return se 





def visit_Nega 


se 


se 


se 


se 





te 


f, node): 


f.visit (node. 


f, node): 


f.visit (node. 


f, node): 


f.visit (node. 





f, node): 





f.visit (node. 





return -node.operand 











self, node): 








self, node): 








f.visit 


f.visit 


f.visit 


f.visit 





node. 


node. 


node. 


node. 


rig. 


rig. 


rig. 


rig. 


和 情 ， 比 如 产生 输出 、 生 成 指令 、 


ht) 


ht) 


ht) 





ht) 


下 面 这 个 例子 展示 如 何 使 用 这 个 类 来 计算 前 面 生成 的 表达 式 : 


>>> e = Evaluator ( 
>>> e.visit (t4) 
0.6 

>>> 


) 


执行 字 节 码 到 机 器 码 的 


通用 ， 一 种 常见 的 解决 方案 就 是 实现 所 谓 的 “访问 者 模式 "。 我 
这 样 的 类 : 


} method'.format ('visit_' + type (node). name )) 
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作为 另 一 个 完全 不 同 的 例子 ， 


上 的 指令 序列 : 


class StackCode (NodeVisitor): 
def generate code (self, node): 


self.instructions = [] 


self.visit (node) 


return self.instructions 


def visit Number(self, node): 


se 


f.instructions.append(('PUSH', node.value) ) 


def binop(self, node, instruction): 


se 
se 


se 


f.visit (node. left) 
f.visit (node. right) 
f.instructions.append( (instruction, ) ) 


def visit Add(self, node): 


se 


f.binop (node, 'ADD') 


def visit_Sub (self, node): 


se 





f.binop (node, 'SUB"') 


def visit_Mul (self, node): 


se 


f.binop(node, 'MUL') 





def visit Div(self, node): 


se 


f.binop (node, 'DIV') 


def unaryop (self, node, instruction): 


se 
se 


f.visit (node.operand) 
f.instructions.append( (instruction, ) ) 


def visit_Negate(self, node): 


se 


如 何 使 用 这 个 








f.unaryop (node, 'NEG') 


类 呢 ? 示例 如 下 : 


>>> s = StackCode () 


>>> s.generate_code (t4) 
DOPUSK", 1), ('PUSH', 2), ('PUSH', 3), ('PUSH', 4), ('SUB',), 


("MUL',), 
>>> 


('PUSH', 5), (‘DIV',), ('ADD',)] 


8.21.3 ”讨论 
本 节 涵 盖 了 两 个 核心 思想 。 首 先是 设计 策略 ， 即 把 操作 复杂 数据 结构 的 代码 和 数据 结 








下 面 这 个 类 可 以 将 表达 式 翻译 为 堆栈 机 (stack machine ) 
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AA UE TR. EDL, AS PCA TE — A Node 类 的 实现 有 对 数据 进行 操作 。 
相反 ， 所 有 对 数据 的 处 理 都 放 在 特定 的 NodeVisitor 类 中 实现 。 这 种 隔离 使 得 代码 变 得 
非常 通用 。 
本 贡 的 第 二 个 核心 思想 在 于 对 访问 者 类 本 身 的 实现 。 在 访问 者 中 ， 你 想 根 据 某 些 值 比 
如 节点 类 型 来 调度 不 同 的 处 理 方法 。 一 种 幼稚 的 做 法 是 会 编写 大 量 的 if 语句 ， 就 像 下 
面 这 样 : 


class NodeVisitor: 

















def visit (self, node): 
nodetype = type (node). name __ 
if nodetype == 'Number': 
return self.visit Number (node) 
elif nodetype == 'Add': 
return self.visit Add (node) 
elif nodetype == 'Sub': 
return self.visit Sub (node) 








但 是 ， 很 快 就 会 发 现 这 种 做 法 明显 行 不 通 。 除 了 非常 繁琐 之 外 ， 运 行 速度 也 很 慢 。 如 
果 想 添加 或 修改 要 处 理 的 节点 类 型 则 会 难以 维护 。 相 反 ， 如 果 通 过 一 些小 技巧 将 方法 
名 构建 出 来 ， 再 利用 getattr0 函 数 来 获取 方法 则 会 好 得 多 。 解 决 方案 中 的 generic_visit0 不 
应 该 匹配 到 任何 处 理 方 法 , 它 是 一 种 异常 回 退 机 制 。 在 本 节 中 ，generic_visitO 会 抛 出 一 
个 异常 来 警告 程序 员 遇 到 了 一 个 未 知 的 节点 类 型 。 


在 每 个 访问 者 类 中 ， 常 常会 通过 对 visit0 方 法 进行 递归 调用 来 完成 计算 。 示 例如 下 : 


class Evaluator (NodeVisitor): 


















































def visit Add(self, node): 


return self.visit (node.left) + self.visit (node.right) 

















正 是 由 于 递归 才 使 得 访问 者 类 可 以 遍历 整个 数据 结构 。 本 质 上 说 就 是 不 断 调 用 visit) 
直到 到 达 某 个 终止 节点 ， 比 如 示例 中 的 Number。 递 归 和 其 他 操作 的 确切 顺序 完全 取决 
于 应 用 程序 。 
应 该 提 到 的 是 ， 这 种 调度 方法 的 技术 在 其 他 语言 中 也 常用 来 模拟 开关 行为 或 者 条 件 语 
句 。 例 如 ， 如 果 我 们 正在 编写 一 个 HTTP 框架 ， 我 们 在 类 中 也 会 实现 类 似 的 方法 调度 : 
class HTTPHandler: 
def handle(self, request): 



























































methname = 'do_' + request.request_method 


getattr(self, methname) (request) 


def do_GET(self, request): 





def do_POST(self, request): 


def do_HEAD(self, request): 

















Di Ta ESR a gE BE CBT NR Eh BR FE RES BEE 
构 ， 那 么 有 可 能 会 达到 Python 的 递归 深度 限制 ( 查看 sys.getrecursionlimit() 的 结果 )。 
要 避免 这 个 问题 ， 可 以 在 构建 数据 结构 时 做 一 些 特定 的 选择 。 例 如 ， 可 以 使 用 普通 的 
Python 列表 来 替代 链表 ， 或 者 在 每 个 节点 中 聚合 更 多 数据 ， 使 得 数据 变 得 扁平 化 而 不 
ETRE 

UAT LA Se iA) FAL a A AIR AS EP Sk IE, FRY AE BSNL 8.22 节 。 


在 有 关 解 析 和 编译 的 程序 中 使 用 访问 者 模式 是 非常 常见 的 。 在 Python 自 带 的 ast 模块 
中 可 以 找到 一 个 实现 。 除 了 可 以 遍历 树 结构 之 外 ， 在 遍历 的 同时 还 允许 对 数据 结构 进 
行 改写 或 转换 ( 例如 添加 节点 或 移 除 节 点 )。 具 体 细节 可 查看 ast 模块 的 源码 。9.24 1 
中 展示 了 一 个 利用 ast 模块 来 处 理 Python 源 代码 的 例子 。 
























































8.22 ”实现 非 弟 归 的 访问 者 模式 


8.22.1 问题 

我 们 使 用 访问 者 模式 来 遍历 一 个 深度 沾 套 的 树 结构 ， 但 由 于 超出 了 Python 的 递归 限制 
而 崩溃 。 我 们 想 要 去 掉 递 归 ， 但 依旧 保持 访问 者 模式 的 编程 风格 。 

8.22.2 ”解决 方案 


巧妙 利用 生成 器 有 时 候 可 用 来 消除 树 的 遍历 或 查找 算法 中 的 递归 。 在 8.21 HP, 我们 
已 经 给 出 了 一 个 访问 者 类 。 下 面 是 这 个 类 的 另 一 种 实现 方式 ， 通 过 堆栈 和 生成 器 来 驱 
动 计算 ,完全 不 使 用 递归 。 


import types 





















































class Node: 
pass 


import types 
class NodeVisitor: 
def visit (self, node): 
stack = [ node ] 
last_result = None 
while stack: 
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try: 
last = stack[-1] 
if isinstance(last, types.GeneratorType) : 
stack. append (last.send(last_result) ) 
last_result = None 
elif isinstance(last, Node): 
stack.append(self. visit (stack.pop())) 
else: 
last_result = stack.pop() 
except StopIteration: 
stack. pop () 
return last_result 


def visit(self, node): 
methname = 'visit_' + type(node). name _ 
meth = getattr(self, methname, None) 
if meth is None: 
meth = self.generic_visit 
return meth (node) 


def generic_visit (self, node): 
raise RuntimeError('No {} method'.format('visit_' + type(node)._name_)) 


如 果 使 用 这 个 类 ， 就 会 发 现 配合 之 前 已 有 的 代码 〈 可 能 使 用 了 递归 )， 程 序 仍然 可 以 正 
常 工作 。 实 际 上 ， 我们 可 以 用 其 蔡 换 上 一 节 中 的 访问 者 类 实现 。 例 如 ， 考 虑 下 面 的 代 
码 ， 其 中 涉及 表达 式 树 : 


class UnaryOperator (Node): 

















def init (self, operand): 


self.operand = operand 


class BinaryOperator (Node) : 
def init (self, left, right): 
self.left = left 
self.right = right 


class Add (BinaryOperator) : 
pass 


class Sub (BinaryOperator) : 
pass 


class Mul (BinaryOperator) : 
pass 
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class Div(BinaryOperator) : 
pass 


class Negate (UnaryOperator) : 
pass 


class Number (Node) : 
def init (self, value): 
self.value = value 


# A sample visitor class that evaluates expressions 


class Evaluator (NodeVisitor): 
def visit Number(self, node): 
return node.value 


def visit Add(self, node): 
return self.visit (node.left) 


def visit Sub(self, node): 
return self.visit (node.left) 


def visit Mul(self, node): 
return self.visit (node.left) 





def visit Div(self, node): 








return self.visit (node.left) 


def visit_Negate(self, node): 


/ 


Se 


Se 


Se 


Se 


return -self.visit (node.operand) 


if name == '_main_': 
# 1 + 2*(3-4) / 5 
tl = Sub (Number (3), Number (4) ) 
t2 = Mul (Number (2), t1) 
t3 = Div(t2, Number (5) ) 
t4 = Add(Number(1), t3) 





# Evaluate it 
e = Evaluator () 
print (e.visit (t4) ) 


# Outputs 0.6 





.visit (node. 


.visit (node. 


.visit (node. 


.visit (node. 


right) 


right) 


right) 


right) 


上 述 代码 在 处 理 简单 的 表达 式 时 是 没有 问题 的 。 但 是 ，Evaluator 的 实现 中 使 用 了 递归 ， 
如 果 舰 套 层次 太 深 的 话 程序 就 会 月 演 。 示 例如 下 : 





>>> a = Number (0) 


>>> for n in range(1, 100000): 
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>>> 


a = Add(a, Number (n) ) 


e = Evalu 


ator () 


>>> e.visit (a) 


Traceback 


(most recent call last): 


File "visitor.py", line 29, in visit 


return meth (node) 


File "visitor.py", line 67, in visit_Add 


return self.visit (node.left) + self.visit (node.right) 


RuntimeError: maximum recursion depth exceeded 


>>> 











现在 ， 我 们 把 Evaluator 类 稍微 修改 一 下 : 


class Evaluator (NodeVisitor): 


>>> 


>>> 


>>> 


>>> 





def visit 


_Number 


self, node): 


return node.value 


def visit 
yield 


def visit 
yield 


_Add (se 
yield 


_Sub (se 
yield 


def visit_Mul (se 


yield 


yield 





def visit_Div (se 


yield 


def visit 


yield 





egate 





f, node): 
node.left) + (yield node.right) 


f, node): 
node.left) - (yield node.right) 


f, node): 
node.left) * (yield node.right) 





f, node): 














node.left) / (yield node.right) 


self, node): 


yield -(yield node.operand) 


如 果 再 次 尝试 同样 的 试验 ， 会 发 现 程序 突然 就 可 以 正常 工作 了 ， 真 是 神奇 ! 


a = Numbe 


r(0) 




















for n in range(1,100000): 
a = Add(a, Number (n) ) 


e = Evalu 


e.visit(a 


4999950000 


>>> 


如 果 想 在 任意 一 


ator () 


) 


个 方法 中 添加 自 定义 的 处 理 ， 程 序 依然 可 以 正常 工作 。 示 例如 下 : 
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class Evaluator (NodeVisitor): 


def visit Add(self, node): 
print ('Add:', node) 
lhs = yield node.left 
print ('left=', lhs) 
rhs = yield node.right 
print ('right=', rhs) 
yield lhs + rhs 





下 面 是 示例 输出 : 


>>> e = Evaluator () 

>>> e.visit (t4) 

Add: <_main_.Add object at 0x1006a8d90> 
left= 1 

right= -0.4 

0.6 

>>> 


8.22.3 讨论 

本 节 很 好 地 展示 了 如 何 利 用 生成 器 和 协 程 来 控制 程序 的 执行 流 。 这 种 令 人 费解 的 技巧 
常常 能 带 来 很 大 的 优势 。 要 理解 本 节 的 内 容 ， 需 要 深入 了 解 几 个 要 点 。 

首先 ， 在 有 关 遍 历 树 结构 的 问题 中 ， 为 了 避免 使 用 递归 ， 常 见 的 策略 就 是 利用 栈 或 者 
队列 来 实现 算法 。 例 如 ， 深 度 优先 遍历 完全 可 以 实现 为 将 第 一 个 遇 到 的 节点 压 和 人 栈 中 ， 
一 旦 处 理 结 束 再 将 其 弹出 。 解决 方案 中 给 出 的 visit0 方 法 的 核心 就 是 按照 这 个 思路 实现 
的 。 算 法 一 开始 会 将 初始 节点 压 人 stack 列表 中 (这 里 的 栈 以 Python 列表 的 形式 来 
实现 )， 然 后 继续 运行 直到 栈 为 空 为 止 。 在 执行 算法 的 时 候 ， 栈 会 根据 树 结构 的 深度 进 
行 增长 。 

第 二 个 要 点 在 于 生成 器 中 yield 语句 的 行为 。 当 直到 yield 语句 时 ， 生 成 器 会 产生 出 一 
个 值 然后 暂停 执行 。 本 节 正 是 利用 这 个 特性 来 取代 递归 。 例 如 ， 现 在 我 们 不 用 像 这 样 
编写 递归 式 的 表达 式 了 : 


value = self.visit (node.left) 
我 们 用 下 面 这 条 语句 来 蔡 代 : 


value = yield node.left 


在 幕后 ， 这 条 语句 会 将 node.left 节点 发 送 回 给 visit0 方 法 。 之 后 ，visit0 就 可 以 为 该 节 
点 调用 合适 的 visit_Name() 方 法 了 。 从 某 种 意义 上 说 ， 这 几乎 和 递归 算法 恰好 相反 。 也 
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就 是 说 ， 现 在 不 是 通过 递归 调用 visit RS, Te EADS Ee PY yield 
语句 来 暂停 计算 。 因 此 , yield 本 质 上 可 当做 一 种 信号 来 告诉 算法 当前 处 在 yield 状态 的 
节点 需要 先 被 处 理 ， 之 后 剩 下 的 处 理 才 可 以 继续 进行 。 


本 节 中 最 后 一 个 需要 考虑 的 问题 是 如 何 传递 结果 。 当 我 们 使 用 生成 器 函数 时 ， 我 们 不 能 
再 使 用 return 语句 来 发 送 结果 了 (这么 做 会 产生 SyntaxError 异常 )。 因 此 ，yield 语句 
必须 来 承担 这 个 责任 。 在 本 节 中 ， 如 果 由 yield 语句 产生 出 的 值 是 非 节点 类 型 (non-Node 
type) 的 ， 则 认为 该 值 是 要 发 送 给 计算 过 程 中 的 下 一 个 步 缀 的 。 这 正 是 在 代码 中 使 用 变 
量 last_return 的 目的 所 在 。 一 般 来 说 ，last_return 将 保存 某 个 访问 方法 上 一 次 产生 出 的 
值 。 这 个 值 会 作为 yield 语句 的 返回 值 发 送 到 上 一 个 执行 的 方法 中 。 例 如 ， 在 下 面 的 代 
码 中 : 


value = yield node.left 



































变量 value 将 获得 last_return 的 值 ， 而 这 个 值 正 是 在 为 节点 node.left 调用 访问 方法 时 返 
回 的 结果 。 


以 上 所 有 要 点 都 可 以 在 下 面 的 代码 片段 中 找到 : 


try: 

last = stack[-1] 

if isinstance(last, types.GeneratorType) : 
stack.append(last.send(last_result) ) 
last_result = None 

elif isinstance(last, Node): 
stack.append(self. visit (stack.pop())) 

else: 
last_result = stack.pop() 

except StopIteration: 


stack. pop () 


这 段 代 码 简 单 地 查看 栈 顶 并 决定 下 一 步 该 做 什么 。 如 果 是 生成 器 ， 那 么 就 调用 它 的 send0 
方法 将 上 次 得 到 的 结果 ( 如 果 有 结果 的 话 ) 添加 到 栈 中 以 待 后 续 处 理 。send0 返 回 的 值 
AME yield 语句 的 值 是 相同 的 。 因 此 ， 在 yield node.left 这 样 的 语句 中 ，send0 返 回 的 
就 是 Node 的 实例 node.left， 并 会 将 其 放置 在 栈 的 顶部 。 


如 果 栈 顶 是 一 个 Node 实例 , 那么 该 实例 会 被 替换 为 在 该 节点 上 调用 合适 的 访问 方法 所 
得 到 的 结果 。 正 是 因为 这 样 ， 我 们 完全 避免 了 对 递归 的 使 用 。 之 前 我 们 是 在 各 个 访问 
方法 中 以 递归 的 方式 直接 调用 visit0〈 参 见 上 一 节 解 决 方案 中 的 实现 )， 现 在 不 必 这 么 
做 了 。 只 要 在 各 个 访问 方法 中 使 用 yield， 那 么 程序 就 能 正常 工作 。 


最 后 ， 如 果 栈 顶 元 素 为 其 他 值 ， 则 可 认为 这 是 某 种 类 型 的 返回 值 。 我 们 将 其 从 栈 中 弹 
出 然后 保存 到 last_result 中 。 如 果 栈 中 的 下 一 个 元 素 是 生成 器 ， 那 么 就 将 它 作 为 yield 
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语句 的 返回 值 发 送出 去 。 应 该 提 到 的 是 ，visitO 的 最 后 一 个 返回 值 也 会 赋 给 last_result。 
这 样 就 使 得 本 节 中 的 代码 也 能 适用 于 传统 的 递归 实现 。 如 果 没 有 用 到 生成 咽 ，last_result 
就 保存 着 代码 中 return 语句 的 返回 值 。 


本 节 中 一 个 潜在 的 危险 在 于 产生 Node 和 非 Node 值 之 间 的 区 别 。 在 我 们 的 实现 中 会 自 
动 遍历 所 有 的 Node 实例 。 这 意味 着 我 们 不 能 把 Node 当做 返回 值 来 进行 传递 。 在 实践 
中 ， 这 也 许 无 关 紧 要 。 但 是 如 果 确 实 有 这 个 需求 ， 就 需要 对 算法 做 轻微 的 调整 。 例 如 ， 
可 以 通过 引入 男 一 个 类 来 解决 : 

class Visit: 


def init (self, node): 


self.node = node 



































class NodeVisitor: 
def visit (self, node): 
stack = [ Visit (node) | 
last_result = None 
while stack: 
try: 
last = stack[-1] 
if isinstance(last, types.GeneratorType) : 
stack.append(last.send(last_result) ) 
last_result = None 
elif isinstance(last, Visit): 
stack.append(self. visit (stack.pop() .node) ) 
else: 
last_result = stack.pop() 
except StopIteration: 
stack. pop () 
return last_result 


def visit(self, node): 
methname = 'visit_' + type(node). name 
meth = getattr(self, methname, None) 
if meth is None: 
meth = self.generic_visit 
return meth (node) 


def generic_visit (self, node): 
raise RuntimeError('No {} method'.format('visit_' + type(node)._name_)) 


根据 上 面 的 实现 ， 现 在 访问 方法 看 起 来 就 是 这 样 的 了 : 


class Evaluator (NodeVisitor): 
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def visit Add(self, node): 
yield (yield Visit (node.left)) + (yield Visit (node.right) ) 


def visit Sub(self, node): 
yield (yield Visit (node.left)) - (yield Visit (node.right) ) 











看 过 本 节 之 后 ， 你 可 能 会 倾向 于 去 实现 一 种 不 涉及 yield 的 解决 方案 。 但 是 ， 这 么 做 会 
使 得 我 们 必须 在 代码 中 处 理 本 节 中 已 经 提 到 过 的 诸多 问题 。 例 如 ， 要 消除 对 递归 的 使 
用 ， 需 要 维护 一 个 栈 。 也 需要 有 某 种 方法 来 管理 对 树 结 构 的 遍历 以 及 调用 各 种 访问 者 
方法 的 逻辑 。 没 有 生成 带 的 帮助 ， 这 种 代码 将 演变 成 一 锅 大 杂烩 ， 其 中 混杂 着 对 栈 的 
操作 、 回 调 函 数 以 及 其 他 的 组 件 。 坦 白 说 ,使 用 yield 的 主要 优势 在 于 我 们 能 够 以 优雅 
的 风格 编写 出 非 递归 式 的 代码 ， 而 且 看 起 来 和 递归 式 的 实现 几乎 一 样 。 


8.23 ”在 环 状 数据 结构 中 管理 内 存 


8.23.1 问题 


我 们 的 程序 中 创建 了 环 状 的 数据 结构 ( 例如 树 、 图 、 观 察 者 模式 等 ), 但 是 在 内 存 管理 
上 却 遇 到 了 麻烦 。 


8.23.2 ”解决 方案 

环 状 数据 结构 的 一 个 简单 例子 就 是 树 了 ， 这 里 父 节点 指向 它 的 孩子 ， 而 孩子 节点 又 会 
指 回 它们 的 父 节点 。 对 于 像 这 样 的 代码 ， 我 们 应 该 考虑 让 其 中 一 条 连接 使 用 weakref 
库 中 提供 的 弱 引用 机 制 。 示 例如 下 : 


import weakref 



























































class Node: 
def init (self, value): 
self.value = value 
self. parent = None 
self.children = [] 


def repr (self): 


return 'Node({!r:})'. format (self.value) 


# property that manages the parent as a weak-reference 
@property 
def parent (self): 


return self. parent if self. parent is None else self. parent () 
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@parent.setter 
def parent (self, node): 
self. parent = weakref.ref (node) 


def add_child(self, child): 
self.children. append (child) 
child.parent = self 


OPPS VALE SOY A Se SH TAC AN ESAT FP : 


>>> root = Node('parent') 
>>> cl = Node('child') 
>>> root.add_child(cl) 
>>> print (cl.parent) 





Node ('parent') 

>>> del root 

>>> print (cl.parent) 
None 

>>> 


8.23.3 ”讨论 
环 状 数据 结构 是 Python 中 一 个 多 少 需 要 一 些 技巧 才能 处 理 好 的 方面 ， 需 要 仔细 学 习 。 
因为 普通 的 垃圾 收集 规则 并 不 适用 于 环 状 数据 结构 。 例 如 ， 考 虑 下 面 的 代码 ; 


# Class just to illustrate when deletion occurs 


























class Data: 
def del (self): 
print ('Data. del ') 


# Node class involving a cycle 
class Node: 
def init (self): 
self.data = Data() 
self.parent = None 
self.children = [] 


def add_child(self, child): 
self.children. append (child) 
child.parent = self 


现在 ,试用 上 面 的 代码 ， 做 些 试验 来 看 看 有 关 垃 圾 收集 中 的 一 些微 妙 问题 : 


>>> a = Data() 





>>> del a # Immediately deleted 
Data. del _ 
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>>> a = Node() 

>>> del a # Immediately deleted 
Data. del | 

>>> a = Node() 

>>> a.add_child(Node()) 

>>> del a # Not deleted (no message) 
>>> 


可 以 看 到 ， 除 了 最 后 那 种 涉及 成 环 的 情况 ， 其 他 的 对 象 都 可 以 立刻 得 到 删除 。 原 因 在 
于 Python 的 垃圾 收集 器 是 基于 简单 的 引用 计数 规则 来 实现 的 。 当 对 象 的 引用 计数 为 0 
时 就 会 被 立刻 删除 控 。 而 对 于 环 状 数据 结构 来 说 这 绝 不 可 能 发 生 。 因 为 在 最 后 那 种 情 
况 中 ， 由 于 父 节 点 和 子 节 点 互相 引用 对 方 ， 引 用 计数 不 会 为 0。 

要 处 理 环 状 数据 结构 ， 还 有 一 个 单独 的 垃圾 收集 器 会 定期 运行 。 但 是 ， 一 般 来 说 我 们 不 
知道 它 会 在 何 时 运行 。 因 此 ， 没 法 知道 环 状 数据 结构 具体 会 在 何 时 被 回收 。 如 果 有 必要 
的 话 ， 可 以 强制 运行 垃圾 收集 器 ， 但 这 么 做 相 比 于 全 自动 的 垃圾 收集 会 有 一 些 笨拙 。 


>>> import gc 








>>> gc.collect () # Force collection 
Data. del _ 

Data. del _ 

>>> 


如 果 环 中 的 对 象 实现 了 自己 的 _ del_ 方法 的 话 ， 则 情况 会 更 糟 。 例 如 ,假设 有 下 面 这 
样 的 代码 : 


# Class just to illustrate when deletion occurs 
class Data: 
def del (self): 
print ('Data. del ') 


# Node class involving a cycle 
class Node: 
def init (self): 
self.data = Data() 
self.parent = None 
self.children = [] 


# NEVER DEFINE LIKE THIS. 
# Only here to illustrate pathological behavior 
def del (self): 

del self.data 

del .parent 

del .children 


def add_child(self, child): 
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self.children. append (child) 
child.parent = self 


在 这 种 情况 下 ， 数 据 结 构 对 象 永远 不 会 被 垃圾 收集 ， 我 们 的 程序 会 因此 而 出 现 内 存 泄 
露 ! 如 果 动 手 尝试 一 下 , 会 发 现 Data. del ”消息 完全 没有 被 打印 出 来 一 一 即使 是 强制 
执行 垃圾 收集 也 不 会 : 

>>> a = Node() 


>>> a.add_child (Node () 
>>> del a # No message (not collected) 














>>> import gc 
>>> gc.collect () # No message (not collected) 
>>> 


























弱 引 用 通过 消除 循环 引用 来 解决 这 个 问题 。 本 质 上 说 ， 弱 引用 就 是 一 个 指向 对 象 的 指 
针 ， 但 不 会 增加 对 象 本 身 的 引用 计数 。 可 以 通过 weakref 库 来 创建 弱 引 用 。 示 例如 下 : 


>>> import weakref 

















>>> a = Node() 

>>> a_ref = weakref.ref (a) 

>>> a_ref 

<weakref at 0x100581f70; to 'Node' at 0x1005c5410> 
>>> 





要 提 领 (dereference ) 一 个 弱 引 用 ， 可 以 像 函 数 一 样 来 调用 它 。 如 果 提 和 领 后 得 到 的 对 象 
还 依然 存在 ， 那 么 就 返回 对 象 ， 和 否则 就 返回 None。 由 于 原始 对 象 的 引用 计数 并 没有 增 
加 ， 因 此 可 以 按照 普通 的 方式 来 删除 它 。 示 例如 下 : 

>>> print (a_ref()) 

<_main_.Node object at 0x1005c5410> 

>>> del a 

Data. del _ 

>>> print (a ref()) 

None 

>> 


通过 使 用 弱 引 用 ， 就 会 发 现 因为 循环 引用 而 出 现 的 问题 都 不 存在 了 。 一 旦 某 个 对 象 不 
再 被 使 用 了 ， 会 立刻 执行 垃圾 收集 处 理 。 请 参阅 8.25 节 中 另 一 个 有 关 弱 引用 的 示例 。 


8.24 让 类 支持 比较 操作 


8.24.1 问题 
我 们 想 使 用 标准 的 比较 操作 符 ( 如 >=、!=、<= 等 ) 在 类 实例 之 间 进 行 比较 ， 但 是 又 不 
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想 编写 大 量 的 特殊 方法 。 


8.24.2 ”解决 方案 

通过 为 每 种 比较 操作 符 实现 一 个 特殊 方法 ，Python 中 的 类 可 以 支持 比较 操作 。 例 如 ， 
要 支持 >= 操 作 符 ， 可 以 在 类 中 定义 一 个 _ge_ 0 方法。 虽然 只 定义 一 个 方法 不 算 什 
么 ,但 如 果 要 实现 每 种 可 能 的 比较 操作 ， 那 么 实现 这 么 多 特殊 方法 则 很 快 会 变 得 
繁琐 。 

functools.total_ordering 装饰 器 可 用 来 简化 这 个 过 程 。 要 使 用 它 ， 可 以 用 它 来 装饰 一 个 类 ， 
然后 定义 _eq_0 以 及 男 一 个 比较 方法 (It _le_. __gt_ MH ge ) WAH 
饰 器 就 会 自动 为 我 们 实现 其 他 的 比较 方法 。 

作为 示例 ， 让 我 们 来 构建 一 些 房子 并 为 其 添加 一 些 房间 吧 ， 然 后 根据 房子 的 大 小 来 进 
行 比 较 : 


from functools import total ordering 












































class Room: 
def init (self, name, length, width): 
self.name = name 
self.length = length 
self.width = width 
self.square_feet = self.length * self.width 


@total_ordering 
class House: 
def init__(self, name, style): 
self.name = name 
self.style = style 
self.rooms = list () 


@property 
def living_space_footage (self): 
return sum(r.square feet for r in self.rooms) 


def add_room(self, room): 


self.rooms.append (room) 


def str (self): 
return '{}: {} square foot {}'.format (self.name, 
self.living_space_footage, 
self.style) 
def eq (self, other): 
return self.living_space_footage == other.living_space_ footage 
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def lt (self, other): 
return self.living_space_footage < other.living_space_footage 
XE, House 类 已 经 用 @total_ordering 来 进行 装饰 了 。 我 们 定义 了 _eq_0 和 _ lt _ (0 来 
根据 房间 的 总 面积 对 房子 进行 比较 。 只 需要 定义 这 两 个 特殊 方法 就 能 让 其 他 所 有 的 比 
较 操 作 正 党 工 作 。 示 例如 下 : 


# Build a few houses, and add rooms to them 


hl = House(' 
hl.add_room( 
hl.add_room( 
hl.add_room( 
hl.add_room( 
h2 = House(' 
h2.add_room( 
h2.add_room( 
h2.add_room( 


h3 = House(' 
h3.add_room ( 
h3.add_room( 
h3.add_room ( 
h3.add_room( 
houses = [hl 


print ('Is hl 
print ('Is h2 
print ('Is h2 
print ('Which 
print ('Which 








hl', 'Cape') 

Room('Master Bedroom', 14, 21) 
"Living Room', 18, 20)) 
"Kitchen', 12, 16)) 
Room('Office', 12, 12)) 


( 
Room ( 
Room ( 
( 
h2', 'Ranch') 

Room('Master Bedroom', 14, 21) 


Room('Living Room', 18, 20)) 
Room('Kitchen', 12, 16)) 


h3', 'Split') 
Room('Master Bedroom', 14, 21) 
Room('Living Room', 18, 20)) 
Room('Office', 12, 16)) 
Room('Kitchen', 15, 17)) 


, h2, h3] 





bigger than h2?', h1 > h2) # prints True 

smaller than h3?', h2 < h3) # prints True 

greater than or equal to h1?', h2 >= h1) # Prints False 

one is biggest?', max(houses)) # Prints 'h3: 1101-square-foot Split' 
is smallest?', min(houses)) # Prints 'h2: 846-square-foot Ranch' 


8.24.3 iit 








如 果 我 们 曾经 编写 过 代码 让 类 支持 所 有 的 基本 比较 操作 符 ， 那 么 装饰 吉 total_ordering 
对 我 们 而 言 就 并 非 那么 神奇 : 它 从 字面 上 定义 了 从 每 个 比较 方法 到 其 他 所 有 需要 该 方 


法 的 映射 关系 。 














因此 ， 如 果 在 类 中 定义 了 _1t _O， 那 么 就 会 利用 它 来 构建 其 他 所 有 的 




















比较 操作 符 。 实 际 上 就 是 在 类 中 填充 以 下 方法 : 


class House: 


def eq (self, other): 


def lt (self, other): 


# Methods created by @total_ordering 
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_le = lambda self, other: self < other or self == other 
_gt_ = lambda self, other: not (self < other or self == other) 
_ge = lambda self, other: not (self < other) 

_ne = lambda self, other: not self == other 


的 确 ， 自 行 编写 这 些 方法 并 不 难 ， 但 @total_ordering 让 这 一 过 程 变 得 更 加 简单 了 。 








8.25 创建 缓存 实例 


8.25.1 问题 


当 创建 类 实例 时 我 们 想 返 回 一 个 缓存 引用 ， 让 其 指向 上 一 个 用 同样 参数 ( 如 果 有 的 话 ) 
创建 出 的 类 实例 。 


8.25.2 ”解决 方案 

本 节 提 到 的 这 个 问题 常常 出 现在 当 我 们 想 确保 针对 某 一 组 输入 参数 只 会 有 一 个 类 实例 
存在 时 。 现 实 中 的 例子 包括 一 些 库 的 行为 ， 比 如 在 logging 模块 中 ， 给 定 的 一 个 名 称 只 
会 关联 到 一 个 单独 的 logger 实例 。 示 例如 下 : 


>>> import logging 














>>> a = logging.getLogger('foo') 
>>> b = logging.getLogger ('bar') 
>>> ais b 

False 

>>> c = logging.getLogger('foo') 
>>> a is c 

True 

>>> 











要 实现 这 一 行为 ， 应 该 使 用 一 个 与 类 本 身 相 分 离 的 工厂 函数 。 示 例如 下 : 


# The class in question 
class Spam: 
def init (self, name): 


self.name = name 


# Caching support 
import weakref 
_spam_cache = weakref.WeakValueDictionary () 


def get_spam(name) : 
if name not in spam cache: 


s = Spam(name) 
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_spam_cache[name] = s 
else: 
s = _spam_cache [name] 


return s 




















如 果 你 用 上 述 实 现 ， 会 发 现 Spam 类 的 行为 和 之 前 展示 的 效果 一 样 : 


>>> a = get_spam('foo') 
>>> b = get_spam('bar') 
>>> a is b 

False 

>>> c = get_spam('foo') 
>>> a isc 

True 

>>> 


8.25.3 itit 

要 想 修改 实例 创建 的 规则 ， 编 写 一 个 特殊 的 工厂 函数 常常 是 一 种 简单 的 方法 。 此 时 ， 
一 个 常 被 提 到 的 问题 就 是 是 否 可 以 用 更 加 优雅 的 方式 来 完成 呢 ? 

例如 ， 我 们 可 能 会 考虑 重新 定义 类 的 _new_0 方 法 : 


# Note: This code doesn't quite work 
































import weakref 


class Spam: 
_spam_cache = weakref.WeakValueDictionary () 
def new (cls, name): 
if name in cls._spam_cache: 
return cls. spam_cache [name] 
else: 
self = super()._new_ (cls) 
cls._spam_cache[name] = self 
return self 


def init (self, name): 
print ("Initializing Spam') 
self.name = name 
初 看 上 去 ， 上 面 的 代码 似乎 可 以 完成 任务 。 但 是 ， 主 要 的 问题 在 于 _init 0 方法 总 是 
会 得 到 调用 ， 无 论 对 象 实例 有 无 得 到 缓存 都 是 如 此 。 示 例如 下 : 


>>> s = Spam('Dave') 

















Initializing Spam 
>>> t = Spam('Dave') 
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本 节 中 对 弱 引 有 





Initializing Spam 
>>> s is t 

True 

>>> 


这 种 行为 很 可 能 不 是 我 们 想 要 的 。 因 此 ， 要 入 
要 采用 一 个 稍 有 些 不 同 的 方法 。 
上 的 运用 与 垃圾 收集 有 着 极为 重要 的 关系 。 当 维护 实例 缓存 时 ， 只 要 在 
程序 中 实际 用 到 了 它们 ， 那 么 通常 希望 将 对 象 保存 在 缓存 中 。WeakValueDictionary 会 
保存 着 那些 被 引用 的 对 象 ， 只 要 它们 存在 于 程序 中 的 某 处 即 可 。 否 则 ， 当 实例 不 再 被 
使 用 时 ， 字 典 的 键 就 会 消失 。 示 例如 下 : 


>>> a = get_spam('foo') 





>>> b = get_spam('bar') 
>>> c = get_spam('foo') 


>>> list (_spam_cache) 
{['foo', 'bar'] 

>>> del a 

>>> del c 

>>> list (_spam_cache) 
{'bar'] 

>>> del b 

>>> list (_spam_cache) 
[] 


>>> 





import weakref 


class CachedSpamManager : 


def init (self): 


坚决 实例 缓存 后 会 重复 初始 化 的 问题 ， 需 











对 于 许多 程序 而 言 ， 使 用 本 节 中 给 出 的 框架 代码 通常 就 足够 了 。 但 是 ， 还 可 以 考虑 一 
些 更 加 高 级 的 实现 技术 。 
我 们 立刻 能 想到 的 是 ， 本 节 中 的 解决 方案 需要 依赖 全 局 变量 以 及 一 个 与 原始 的 类 定义 
相 分 离 的 工厂 函数 。 一 种 改进 方式 是 将 缓存 代码 放 到 男 一 个 单独 的 管理 类 中 ， 然 后 将 
这 些 组 件 粘 合 在 一 起 : 








self. cache = weakref.WeakValueDictionary () 


def get_spam(self, name): 
if name not in self. cache: 
s = Spam(name) 
self. cache [name] = s 


else: 


s = self. cache[name] 


return s 





def clear(self): 
self. _cache.clear() 


class Spam: 
manager = CachedSpamManager () 
def init (self, name): 


self.name = name 


def get_spam(name) : 
return Spam.manager.get_spam (name) 


这 种 方法 的 特点 就 是 为 潜在 的 灵活 性 提供 了 更 多 支持 。 例 如 ， 我 们 可 以 实现 不 同类 型 
的 缓存 管理 机 制 〈 以 单独 的 类 来 实现 )， 然 后 附加 到 Spam 类 中 替换 掉 默 认 的 缓存 实现 。 
其 他 的 代码 (比如 get_spam ) 不 需要 修改 就 能 正常 工作 。 

另 一 种 设计 上 的 考虑 是 到 底 要 不 要 将 类 的 定义 暴露 给 用 户 。 如 果 什 么 都 不 做 的 话 ， 月 
户 可 以 很 容易 创建 出 实例 ， 从 而 绕 过 缓存 机 制 : 


>>> a = Spam('foo') 
































ay 





>>> b = Spam('foo') 
>>> a is b 

False 

>>> 








如 果 预 防 出 现 这 种 行为 对 程序 而 言 很 重要 , 我 们 可 以 采取 特定 的 步骤 来 避免 。 例 如 ， 
可 以 在 类 名 前 加 一 个 下 划 线 ， 例 如 _Spam， 这 样 至 少 可 以 提醒 用 户 不 应 该 直接 去 访 
问 它 。 
或 者 ,如 果 想 为 用 户 提 供 更 强 的 提示 ,暗示 他 们 不 应 该 直接 实例 化 Spam 对 象 , 可 以 让 
__init_0 方 法 抛 出 一 个 异常 ,然后 用 一 个 类 方法 来 实现 构造 函数 的 功能 ， 就 像 下 面 
这 样 : 











class Spam: 
def init (self, *args, **kwargs): 
raise RuntimeError ("Can't instantiate directly") 


# Alternate constructor 
@classmethod 
def new(cls, name): 

self = cls. new (cls) 


self.name = name 


要 使 用 上 述 代码 ,可 以 将 实现 缓存 机 制 的 代码 修改 为 使 用 Spam._new0 来 创建 实例 ， 而 
不 是 使 用 通常 所 见 的 Spam0。 示 例如 下 : 
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import weakref 


class CachedSpamManager : 


def 


_init (self): 


self. cache = weakref.WeakValueDictionary () 


def get_spam(self, name): 


if name not in self. cache: 


= Spam._new (name) # Modified creation 


self. cache[name] = s 


else: 


s = self. cache[name] 


return s 


还 有 更 加 极端 的 方法 来 隐藏 Spam 类 














复杂 。 在 类 名 前 添加 下 划 线 或 者 用 类 方法 作为 构造 函数 通常 


ANT o 











通过 使 用 元 类 ， 缓存 机 制 以 及 其 他 的 创建 模式 ( creational pattern ) 


雅 的 方式 得 








导 以 解决 。 关 于 元 类 ， 请 参阅 9.13 节 。 


类 的 可 见 性 , 但 也 许 最 好 不 要 把 
就 足以 给 程 序 员 傍 来 提 


P 











> AL 

















常 能 够 以 更 加 优 
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软件 开发 中 最 重要 的 一 条 真理 就 是 “不 要 重复 自己 的 工作 (Don’t repeat yourself ”。 也 
就 是 说 ， 任 何 时候 当 需要 创建 高 度 重复 的 代码 〈 或 者 需要 复制 粘贴 源 代 码 ) 时 ， 通 常 
都 需要 寻找 一 个 更 加 优雅 的 解决 方案 。 在 Python 中 , 这 类 问题 常常 会 归 类 为 “元 编程 ”。 
简 而 言 之 ， 元 编程 的 主要 目标 是 创建 函数 和 类 ， 并 用 它们 来 操纵 代码 ( 比如 说 修改 、 
生成 或 者 包装 已 有 的 代码 )。Python 中 基于 这 个 目的 的 主要 特性 包括 装饰 器 、 类 装饰 名 
以 及 元 类 。 但 是 , 还 有 许多 其 他 有 用 的 主题 一 一 包括 对 象 签名 、 用 exec0 来 执行 代码 以 
及 检查 函数 和 类 的 内 部 结构 一 一 也 进入 了 我 们 的 视野 。 本 章 的 主要 目的 是 探讨 各 种 元 
编程 技术 ， 通 过 示例 来 讲解 如 何 利用 这 些 技术 来 自 定义 Python 的 行为 ， 使 其 能 满足 我 
们 不 同 寻常 的 需求 。 



























































9.1 给 函数 添加 一 个 包装 


9.1.1 问题 

我 们 想 给 函数 加 上 一 个 包装 层 ( wrapper layer ) 以 添加 额外 的 处 理 ( 例如， 记录 日 志 、 
计时 统计 )。 

9.1.2 解决 方案 

如 果 需 要 用 额外 的 代码 对 函数 做 包装 ， 可 以 定义 一 个 装饰 器 函数 。 示 例如 下 : 


import time 
from functools import wraps 


def timethis(func): 
EEF 
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Decorator that reports the execution time. 
tri 
@wraps (func) 
def wrapper (*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print (func. name , end-start) 
return result 
return wrapper 


下 面 是 使 用 这 个 装饰 器 的 示例 : 


>>> @timethis 
. def countdown (n): 


meer 


Counts down 


meer 


while n > 0: 


n-=1 


>>> countdown (100000) 
countdown 0.008917808532714844 
>>> countdown (10000000) 
countdown 0.87188299392912 

>>> 


9.1.3 讨论 
装饰 器 就 是 一 个 函数 ， 它 可 以 接受 一 个 函数 作为 输入 并 返回 一 个 新 的 函数 作为 输出 。 
当 像 这 样 编写 代码 时 : 


@timethis 
def countdown (n): 




















和 单独 执行 下 列 步骤 的 效果 是 一 样 的 : 


def countdown (n): 


countdown = timethis (countdown) 


顺便 搬 一 句 , 内 建 的 装饰 器 比如 @staticmethod , @classmethod 以 及 @property 的 工作 方 
式 也 是 一 样 的 。 比 如 说 ， 下 面 这 两 个 代码 片段 的 效果 是 相同 的 : 


class A: 








@classmethod 
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def method(cls): 
pass 


class B: 
# Equivalent definition of a class method 
def method(cls): 
pass 

method = classmethod (method) 


装饰 器 内 部 的 代码 一 般 会 涉及 创建 一 个 新 的 函数 ,利用 *args 和 **kwargs 来 接受 任意 的 
参数 。 本 节 示 例 中 的 wrapperO 函 数 正 是 这 么 做 的 。 在 这 个 函数 内 部 ， 我 们 需要 调用 原 
来 的 输入 函数 ( 即 被 包装 的 那个 函数 ， 它 是 装饰 器 的 输入 参数 ) 并 返回 它 的 结果 。 但 
是 ， 也 可 以 添加 任何 想 要 添加 的 额外 代码 (例如 计时 处 理 )。 这 个 新 创建 的 wrapper PK 
数 会 作为 装饰 器 的 结果 返回 ， 取 代 了 原来 的 函数 。 


需要 重点 强调 的 是 ， 装 饰 器 一 般 来 说 不 会 修改 调用 签名 ， 也 不 会 修改 被 包装 函数 返回 
的 结果 。 这 里 对 *args 和 **kwargs 的 使 用 是 为 了 确保 可 以 接受 任何 形式 的 输入 参数 。 装 
饰 器 的 返回 值 几 乎 总 是 同调 用 func(*args, **kwargs) 的 结果 一 致 ， 这 里 的 func 就 是 那个 
未 被 包装 过 的 原始 函数 。 

当初 次 学 习 装 饰 器 时 , 通过 一 些 简单 的 例子 来 人 门 是 很 容易 的 , 就 像 本 节 给 出 的 那个 
计时 的 例子 一 样 。 但 是 ,如 果 打 算 在 生产 环境 中 编写 装饰 器 , 那么 这 里 还 有 一 些 细节 
需要 考虑 。 比 方 说 ,我们 的 解决 方案 中 对 装饰 器 @wraps(func) 的 使 用 就 是 一 个 容易 忘 
记 但 是 却 很 重要 的 技术 , 它 可 以 用 来 保存 函数 的 元 数据 。 这 方面 的 内 容 将 在 下 一 节 中 
描述 。 如 果 我 们 要 编写 自己 的 装饰 器 陌 数 , 那么 接 下 来 的 几 节 将 会 补充 一 些 很 重要 的 
细节 。 

































































9.2 编写 装饰 器 时 如 何 保存 函数 的 元 数据 


9.2.1 问题 

我 们 已 经 编写 好 了 一 个 装饰 器 ， 但 是 当 将 它 用 在 一 个 函数 上 时 ， 一 些 重 要 的 元 数据 比 
如 函数 名 、 文 档 字 符 串 、 函 数 注解 以 及 调用 签名 都 丢失 了 。 

9.2.2 解决 方案 


每 当 定义 一 个 装饰 器 时 ,应 该 总 是 记得 为 底层 的 包装 函数 添加 functools 库 中 的 @wraps 
装饰 顺 。 示 例如 下 : 


import time 









































from functools import wraps 
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def timethis(func): 


meer 


Decorator that reports the execution time. 
tri 
@wraps (func) 
def wrapper (*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print (func. name , end-start) 
return result 
return wrapper 


下 面 是 使 用 这 个 装饰 器 的 示例 ， 并 且 展 示 了 如 何 检视 结果 函数 的 元 数据 : 


>>> @timethis 





. def countdown (n:int): 


meer 


Counts down 


meer 


while n > 0: 


n-=1 


>>> countdown (100000) 
countdown 0.008917808532714844 
>>> countdown. name | 
"countdown! 

>>> countdown. doc _ 
"\n\tCounts down\n\t' 

>>> countdown. annotations __ 
{'n': <class 'int'>} 

>>> 


9.2.3 ”讨论 


编写 装饰 器 的 一 个 重要 部 分 就 是 拷贝 装饰 器 的 元 数据 。 如 果 忘 记 使 用 @wraps， 就 会 发 
现 被 包装 的 函数 丢失 了 所 有 有 用 的 信息 。 例 如 ， 如 果 忽 略 @wraps， 上 面 这 个 例子 中 的 
元 数据 看 起 来 就 是 这 样 的 : 


>>> countdown. name _ 












































"'wrapper' 
>>> countdown. doc _ 
>>> countdown. annotations __ 


{} 


>>> 
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@wraps 装饰 器 的 一 个 重要 特性 就 是 它 可 以 通过 ”wrapped __ 属性 来 访问 被 包装 的 那个 
函数 。 例 如 ， 如 果 和 希望 直接 访问 被 包装 的 函数 ， 则 可 以 这 样 做 ; 


>>> countdown. wrapped (100000) 











>>> 


__ wrapped “属性 的 存在 同样 使 得 装饰 器 函数 可 以 合适 地 将 底层 被 包装 函数 的 签名 站 
露出 来 。 例 如 : 


>>> from inspect import signature 


小 








>>> print (signature (countdown) ) 

(n:int) 
常会 提 到 的 一 个 问题 是 如 何 让 装饰 器 直接 拷贝 被 包装 的 原始 函数 的 调用 签名 ( 即 ， 不 
使 用 *args 和 **kwargs )。 一 般 来 说 ， 如 果 不 采用 涉及 生成 代码 字符 串 和 execO 的 技巧 , 那 
么 这 很 难 实现 。 坦 白地 说 ， 通 常 我 们 最 好 还 是 使 用 @wraps。 这 样 可 以 依赖 于 一 个 事实 ， 
即 ， 底 层 的 函数 签名 可 以 通过 访问 _wrapped “属性 来 传递 。 有 关 函 数 签名 的 更 多 信息 
可 以 参阅 9.16 Wo 


9.3 ”对 装饰 器 进行 解 包 装 


9.3.1 问题 
我 们 已 经 把 装饰 器 添加 到 一 个 函数 上 了 ， 但 是 想 “ 撤 销 ” 它 ， 访 问 未 经 过 包装 的 那个 
原始 函数 。 


9.3.2 解决 方案 
假设 装饰 器 的 实现 中 已 经 使 用 了 @wraps ( 参见 92 节 )， 一 般 来 说 我 们 可 以 通过 访问 
__ wrapped ”属性 来 获取 对 原始 函数 的 访问 。 示 例如 下 : 


>>> @somedecorator 



































>>> def add(x, y): 
return x + y 


>>> orig_add = add.__wrapped_ 
>>> orig_add(3, 4) 

7 

>> 


9.3.3 讨论 
直接 访问 装饰 器 背后 的 那个 未 包装 过 的 函数 对 于 调试 、 反 射 (introspection， 也 有 译 为 
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“自省 ”) 以 及 其 他 一 些 涉 及 函数 的 操作 是 很 有 帮助 的 。 但 是 ， 本 节 讨 论 的 技术 只 有 在 





J __wrapped_ 属性 时 才 有 用 。 





实现 装饰 器 时 利用 functools 模块 中 的 @wraps 对 元 数据 进行 了 适当 的 拷贝 ,或 者 直接 设 
定 











如 果 有 多 个 装饰 需 已 经 作用 于 某 个 函数 上 了 ,那么 访问 wrapped 属性 的 行为 目前 是 
未 定义 的 ， 应 该 避免 这 种 情况 。 在 Python 3.3 中 ， 这 么 做 会 绕 过 所 有 的 包装 层 。 例 如 ， 


假设 有 如 下 的 代码 : 


from functools import wraps 


def decorator1 (func): 
@wraps (func) 
def wrapper (*args, **kwargs): 
print ('Decorator 1' 
return func(*args, **kwargs) 
return wrapper 


def decorator2 (func): 
@wraps (func) 
def wrapper (*args, **kwargs): 
print ('Decorator 2') 
return func(*args, **kwargs) 
return wrapper 


@decoratorl 

@decorator2 

def add(x, y): 
return x + y 

















当 调 用 装饰 过 的 函数 以 及 通过 wrapped ”属性 调用 原始 函数 时 就 会 出 现 这 样 的 











情况 : 
>>> add(2, 3) 
Decorator 1 
Decorator 2 
3 
>>> add._ wrapped (2, 3) 


5 
>>> 








WW 


然而 ， 这 种 行为 已 经 被 报告 为 一 个 bug 了 (参见 http://bugs.python.org/issue17482 )， 可 
能 会 在 今后 释 出 的 版 本 中 修改 为 暴露 出 合适 的 装饰 器 链 ( decorator chain )。 


最 后 但 同样 重要 的 是 , 请 注意 并 不 是 所 有 的 装饰 器 都 使 用 了 @wraps, 因此 有 些 装 饰 顺 的 行 









































为 可 能 与 我 们 期 望 的 有 所 区 别 。 特 别 是 ， 

















内 建 的 装饰 器 @staticmethod 和 @classmethod 





创建 的 描述 符 ( descriptor ) 对 象 并 不 遵循 这 个 约定 ( 相反 ， 它 们 会 把 原始 函数 保存 在 
_ func 属性 中 )。 所 以 ,具体 问题 需要 具体 分 析 ， 每 个 人 遇 到 的 情况 可 能 不 同 。 





9.4 ”定义 一 个 可 接受 参数 的 装饰 器 


9.4.1 问题 
我 们 想 编写 一 个 可 接受 参数 的 装饰 器 函数 。 


9.4.2 ”解决 方案 

让 我 们 用 一 个 例子 来 说 明 接 受 参 数 的 过 程 。 假 设 我 们 想 编写 一 个 为 函数 添加 日 志 功 能 
的 装饰 器 ， 但 是 又 允许 用 户 指 定 日 志 的 等 级 以 及 一 些 其 他 的 细节 作为 参数 。 下 面 是 定 
义 这 个 装饰 器 的 可 能 做 法 : 


from functools import wraps 























import logging 


def logged(level, name=None, message=None): 
rrr 
Add logging to a function. level is the logging 
level, name is the logger name, and message is the 
log message. If name and message aren't specified, 
they default to the function's module and name. 
rrr 
def decorate (func): 
logname = name if name else func. module 
log = logging.getLogger (logname) 
logmsg = message if message else func. name _ 


@wraps (func) 
def wrapper (*args, **kwargs): 
log.log(level, logmsg) 
return func(*args, **kwargs) 
return wrapper 
return decorate 


# Example use 
@logged (logging. DEBUG) 
def add(x, y): 

return x + y 


@logged(logging.CRITICAL, '‘example') 
def spam(): 
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print ('Spam!') 


初 看 上 去 这 个 实现 显得 很 有 技巧 性 ， 但 其 中 的 思想 相对 来 说 是 很 简单 的 。 最 外 层 的 
logged0 〇 函数 接受 所 需 的 参数 ， 并 让 它们 对 装饰 器 的 内 层 函 数 可 见 。 内 层 的 decorate() 
函数 接受 一 个 函数 并 给 它 加 上 一 个 包装 层 。 关 键 部 分 在 于 这 个 包装 层 可 以 使 用 传递 给 
logged() 的 参数 。 


9.4.3 ”讨论 


编写 一 个 可 接受 参数 的 装饰 顺 是 需要 一 些 技巧 的 ， 因 为 这 会 涉及 底层 的 调用 顺序 。 具 
体 来 说 ， 如 果 有 这 样 的 代码 : 


@decorator(x, y, zZ) 















































def func(a, b): 
pass 
装饰 的 过 程 会 按照 下 列 方 式 来 进行 : 
def func(a, b): 
pass 


func = decorator (x, y, Zz) (func) 


请 仔细 观察 decorator(x, y, Z) 的 结果 必须 是 一 个 可 调用 对 象 ， 这 个 对 象 反 过 来 接受 一 
个 函数 作为 输入 ， 并 对 其 进行 包装 。 请 参见 9.7 节 中 另 一 个 关于 让 装饰 器 接受 参数 的 
例子 。 





95 ”定义 一 个 属性 可 由 用 户 修 改 的 装饰 器 


9.5.1 问题 

我 们 想 编写 一 个 装饰 器 来 包装 函数 ， 但 是 可 以 让 用 户 调整 装饰 器 的 属性 ， 这 样 在 运行 
时 能 够 控制 装饰 器 的 行为 。 

9.5.2 ”解决 方案 

下 面 给 出 的 解决 方案 对 上 一 节 的 示例 进行 了 扩展 ， 引 入 了 访问 器 函数 (accessor 


function ), 通过 使 用 nonlocal 关键 字 声 明 变 量 来 修改 装饰 絮 内 部 的 属性 。 之 后 把 访问 器 
函数 作为 函数 属性 附加 到 包装 函数 上 。 


from functools import wraps, partial 
























































import logging 


# Utility decorator to attach a function as an attribute of obj 





def 


def 


attach_wrapper (obj, func=None) : 
if func is None: 

return partial(attach_wrapper, obj) 
setattr(obj, func._name_, func) 
return func 


logged(level, name=None, message=None) : 
ree 
Add logging to a function. level is the logging 
level, name is the logger name, and message is the 
log message. If name and message aren't specified, 
they default to the function's module and name. 
ree 
def decorate (func): 
logname = name if name else func. module _ 
log = logging. getLogger (logname) 
logmsg = message if message else func. name __ 


@wraps (func) 

def wrapper (*args, **kwargs): 
log.log(level, logmsg) 
return func(*args, **kwargs) 


# Attach setter functions 
@attach_wrapper (wrapper) 
def set level (newlevel): 
nonlocal level 
level = newlevel 


@attach_wrapper (wrapper) 
def set message (newmsg): 
nonlocal logmsg 
logmsg = newmsg 


return wrapper 
return decorate 


# Example use 
@logged (logging .DEBUG) 


def 


add(x, y): 
return x + y 


@logged(logging.CRITICAL, '‘example') 


def 


Spam() : 
print ('Spam!') 
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下 面 的 交互 式 


会 话 展示 了 在 完成 上 面 的 定义 之 后 对 各 项 





>>> import logging 


>>> logging.basicConfig(level=logging.DEBUG) 


>>> add(2, 3) 
DEBUG: main __ 
5 


>>> # Change 


:add 


the log message 


>>> add.set_message('Add called') 


>>> add(2, 3) 
DEBUG: main __ 
5 


>>> # Change 


:Add called 


the log level 


>>> add.set_level (logging.WARNING) 


>>> add(2, 3) 


WARNING: main :Add called 


5 
>>> 


9.5.3 讨论 
本 节 示 例 的 关键 就 在 访问 器 函数 ( 即 ，set_message() 和 set _level() )， 它 们 以 属 
附加 到 了 包装 函数 上 。 每 个 访问 絮 函 数 人 允许 对 nonlocal 3 
这 个 示例 中 有 一 个 令 人 惊叹 的 特性 ， 那 就 是 访问 器 函数 可 以 跨越 多 个 装饰 器 层 进行 传 
(如 果 所 有 的 装饰 器 都 使 用 了 @functools.wraps 的 话 )。 例如， 假设 引入 了 一 个 额外 

的 装饰 器 ， 比 如 9.2 节 中 的 @timethis， 然 后 编写 了 如 下 的 代码 : 





@timethis 





E 
E 
fe: 






































Clogged (logging. DEBUG) 


def countdown 
while n > 


ee 
就 会 发 现 访问 需 


>>> countdown 


DEBUG: main __ 


countdown 0.8 


>>> countdown. 


>>> countdown. 


>>> countdown 


n): 
0: 


函数 依然 可 以 正常 工作 : 


10000000) 

:countdown 

98461532592773 

set_level (logging.WARNING) 
set_message ("Counting down to zero") 
10000000) 





WARNING: main :Counting down to zero 
countdown 0.8225970268249512 


性 的 修改 : 





a HERES. 





Bl 


变量 赋值 来 调整 内 部 参数 。 
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>>> 


如 果 把 装饰 器 的 顺序 像 下 面 这 样 颠倒 一 下 ， 就 会 发 现 访问 器 函数 还 是 能 够 以 相同 的 方 
式 工作 。 
@logged (logging .DEBUG) 


@timethis 
def countdown (n): 





while n > 0: 


n-=1 











尽管 这 里 没有 给 出 ， 我 们 也 可 以 通过 添加 如 下 额外 的 代码 来 实现 用 访问 器 函数 返回 内 
部 的 状态 值 : 








@attach_wrapper (wrapper) 
def get_level(): 
return level 


# Alternative 
wrapper.get_level = lambda: level 


本 节 中 一 个 极为 微妙 的 地 方 在 于 为 什么 要 在 一 开始 使 用 访问 器 函数 。 比 方 说 ， 我 们 可 
能 会 考虑 其 他 的 方案 ,完全 基于 对 函数 属性 的 直接 访问 ， 示 例如 下 : 











@wraps (func) 

def wrapper(*args, **kwargs): 
wrapper.log.log(wrapper.level, wrapper.logmsg) 
return func(*args, **kwargs) 


# Attach adjustable attributes 
wrapper.level = level 
wrapper.logmsg = logmsg 
wrapper.log = log 





RTT R RENER Us He Ti at Eo WARE HT TUS Eee nie EE SII ee 
器 (比如 示例 中 的 @tmethis )， 这 样 就 会 隐藏 下 层 的 属性 使 得 它们 无 法 被 修改 。 而 使 用 
访问 需 函 数 可 以 绕 过 这 个 限制 。 

最 后 但 同样 重要 的 是 ， 本 节 展 示 的 解决 方案 可 以 作为 类 装饰 器 的 一 种 替代 方式 ， 我 们 
在 9.9 节 中 会 继续 谈 到 相关 的 主题 。 
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9.6 ”定义 一 个 能 接收 可 选 参数 的 装饰 器 


9.6.1 问题 


我 们 想 编写 一 个 单独 的 装饰 器 ， 使 其 既 可 以 像 @decorator 这 样 不 带 参数 使 用 ， 也 可 以 
像 @decorator(x, y, z) 这 样 接收 可 选 参数 。 但 是 , 由 于 简单 的 装饰 器 和 可 接收 参数 的 装饰 
器 之 间 存 在 不 同 的 调用 约定 ( calling convention ), 这 样 看 来 似乎 并 没有 直接 的 方法 来 处 理 。 


96.2 ”解决 方案 
我 们 对 9.5 节 中 记录 日 志 的 代码 做 了 修改 ， 定 义 了 一 个 可 接受 可 选 参 数 的 装饰 器 : 


from functools import wraps, partial 
















































































import logging 


def logged(func=None, *, level=logging.DEBUG, name=None, message=None) : 
if func is None: 
return partial(logged, level=level, name=name, message=message) 


logname = name if name else func. module _ 
log = logging.getLogger (logname) 
logmsg = message if message else func. name _ 
@wraps (func) 
def wrapper (*args, **kwargs): 

log.log(level, logmsg) 

return func(*args, **kwargs) 
return wrapper 


# Example use 

@logged 

def add(x, y): 
return x + y 


@logged(level=logging.CRITICAL, name='example') 
def spam(): 
print ('Spam!') 


从 示例 中 可 以 看 到 ， 现 在 这 个 装饰 器 既 能 够 以 简单 的 形式 〈 即 @logged ) 使 用 ， 也 可 以 
提供 可 选 的 参数 给 它 (BI, @logged(level=logging.CRITICAL, name='example’) )。 


96.3 ”讨论 
本 节 提 到 的 实际 上 是 一 种 编程 一 致 性 (programming consistency ) 的 问题 。 当 使 用 装饰 






































器 时 ， 大 部 分 程序 员 习 惯 于 完全 不 使 用 任何 参数 ， 或 者 就 像 示 例 中 那样 使 用 参数 。 从 
技术 上 来 说 ， 如 果 装 饰 器 的 所 有 参数 都 是 可 选 的 ， 那 么 可 以 像 这 样 来 使 用 : 
Qlogged () 


def add(x, y): 
return x+y 


但 是 这 和 我 们 常见 的 形式 不 太一 样 ， 如 果 程 序 员 忘 记 加 上 那个 额外 的 圆 括号 就 可 能 会 
导致 常见 的 使 用 错误 。 本 节 提 到 的 技术 可 以 让 装饰 器 以 一 致 的 方式 使 用 ， 既 可 以 带 括 
号 也 可 以 不 带 括号 。 

要 理解 代码 是 如 何 工 作 的 ， 就 需要 对 装饰 需 是 如 何 施加 到 函数 上 上， 以 及 对 它们 的 调用 
约定 有 着 透彻 的 理解 才 行 。 以 一 个 简单 的 装饰 器 为 例 : 


# Example use 



































@logged 
def add(x, y): 
return x + y 


调用 顺序 是 这 样 的 : 


def add(x, y): 
return x + y 
add = logged (add) 


在 这 种 情况 下 ， 被 包装 的 函数 只 是 作为 第 一 个 参数 简单 地 传递 给 logged。 因 而 ， 在 解 
决 方案 中 ，logged0 的 第 一 个 参数 就 是 要 被 包装 的 那个 函数 。 其 他 所 有 的 参数 都 必须 有 
一 个 默认 值 。 

对 于 一 个 可 接受 参数 的 装饰 顺 ， 例 如 : 


@logged (level=logging.CRITICAL, name='example') 





ol 





def spam(): 
print ('Spam!') 


其 调用 顺序 是 这 样 的 : 


def spam() : 





print ('Spam!') 
spam = logged(level=logging.CRITICAL, name='example') (spam) 


在 初次 调用 logged0 时 ， 被 包装 的 函数 并 没有 传递 给 logged。 因 此 在 装饰 器 中 ， 被 包装 
的 函数 必须 作为 可 选 参数 。 这 样 一 来 ， 反 过 来 迫使 其 他 的 参数 都 要 通过 关键 字 来 指定 。 

此 外 ， 当 传递 了 参数 后 装饰 器 应 该 返回 一 个 新 函数 ， 要 包装 的 函数 就 作为 参数 传递 给 
这 个 新 水 数 ( 见 9.5 节 )。 要 做 到 这 一 点 ， 我 们 在 解决 方案 中 利用 functools.partial 来 实 
现 这 个 聪明 的 技巧 。 具 体 来 说 ， 它 只 是 返回 了 一 个 部 分 完成 的 版 本 ， 除 了 要 被 包装 的 


























元 编程 347 





函数 之 外 ， 其 他 所 有 的 参数 都 已 经 确定 好 了 。 关 于 partial0 的 使 用 ， 可 参阅 7.8 节 以 获 
取 更 多 的 细节 。 


9.7 利用 装饰 器 对 函数 参数 强制 执行 类 型 检查 


9.7.1 问题 


我 们 想 为 函数 参数 添加 强制 性 的 类 型 检查 功能 ， 将 其 作为 一 种 断言 或 者 与 调用 者 之 间 
的 契约 。 


9.7.2 ”解决 方案 
在 给 出 解决 方案 代码 之 前 ， 本 节 的 目标 是 提供 一 种 手段 对 函数 的 输入 参数 类 型 做 强制 
生 的 类 型 检查 。 下 面 这 个 简短 的 示例 说 明了 这 种 思想 : 

>>> @typeassert (int, int) 


. def add(x, y): 
return x + y 


















































—- 





>>> 
>>> add(2, 3) 
5 
>>> add(2, 'hello') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "contract.py", line 33, in wrapper 
TypeError: Argument y must be <class 'int'> 
>>> 


MAE, RIAA iit @ typeassert 的 实现 : 


from inspect import signature 





from functools import wraps 


def typeassert (*ty_args, **ty_kwargs): 
def decorate (func): 
# If in optimized mode, disable type checking 
if not _debug 
return func 


# Map function argument names to supplied types 
sig = signature (func) 
bound_types = sig.bind_partial(*ty_args, **ty_kwargs) .arguments 
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@wraps (func) 
def wrapper (*args, **kwargs): 
bound_values = sig.bind(*args, **kwargs) 
# Enforce type assertions across supplied arguments 
for name, value in bound_values.arguments.items(): 
if name in bound_types: 
if not isinstance(value, bound_types[name]): 
raise TypeError ( 
"Argument {} must be {}'.format (name, bound types [name] ) 
) 
return func(*args, **kwargs) 
return wrapper 
return decorate 


我 们 会 发 现 这 个 装饰 需 相 当 灵 活 ， 既 允许 指定 函数 参数 的 所 有 类 型 ， 也 可 以 只 指定 一 
部 分 子 集 。 此 外 ， 类 型 既 可 以 通过 位 置 参数 来 指定 ， 也 可 以 通过 关键 字 参 数 来 指定 。 
示例 如 下 : 


>>> @typeassert (int, z=int) 

















. def spam(x, y, z=42): 
print (x, y, zZ) 


>>> spam(1, 2, 3) 
123 
>>> spam(1, 'hello', 3) 
1 hello 3 
>>> spam(1, 'hello', 'world') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "contract.py", line 33, in wrapper 
TypeError: Argument z must be <class 'int'> 
>>> 


9.7.3 讨论 
本 节 展 示 了 一 个 高 级 的 装饰 器 例子 ， 引 入 了 一 些 重要 有 是 有 用 的 概念 。 


首先 ， 装饰 带 的 一 个 特性 就 是 它们 只 会 在 函数 定义 的 时 候 应 用 一 次 。 在 某 些 情况 下 ， 
我 们 可 能 想 禁 止 由 装饰 絮 添 加 的 功能 。 为 了 做 到 这 点 ， 只 要 让 装饰 侨 函 数 返 回 那 个 未 
经 过 包装 的 函数 即 可 。 在 解决 方案 中 ,如 果 全 局 变量 debug BCH False, 下列 代 码 
就 会 返回 未 修改 过 的 函数 ( 当 Python 解释 融 以 -0 或 -00 的 优化 模式 执行 的 话 , 则 属于 
这 种 情况 )。 


























def decorate (func): 
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# If in optimized mode, disable type checking 
if not _ debug : 
return func 


接 下 来 ， 编 写 这 个 装饰 器 比较 棘手 的 地 方 在 于 要 涉及 对 被 包装 函数 的 参数 签名 做 检查 。 
在 这 里 ,我 们 可 选择 的 工具 应 该 是 inspect.signature() 函 数 。 简 单 来 说 ， 这 个 函数 允许 我 
们 从 一 个 可 调用 对 象 中 提取 出 参数 签名 信息 。 示 例如 下 : 


>>> from inspect import signature 





>>> def spam(x, y, z=42): 
pass 


>>> sig = signature (spam) 

>>> print (sig) 

(x, y, z=42) 

>>> sig.parameters 

mappingproxy (OrderedDict ([('x', <Parameter at 0x10077a050 'x'>), 

('y', <Parameter at 0x10077a158 'y'>), ('z', <Parameter at 0x10077alb0 'z'>)]) 
>>> sig.parameters['z'].name 

1z! 
>>> sig.parameters['z'].default 
42 
>>> sig.parameters['z'].kind 
<_ParameterKind: 'POSITIONAL_OR_KEYWORD'> 
>>> 





在 装饰 器 实现 的 第 一 部 分 中 , 我 们 使 用 签名 的 bind_partial0 方 法 来 对 提供 的 类 型 到 参数 
名 做 部 分 绑 定 。 下 面 的 示例 说 明了 其 中 发 生 了 些 什 么 : 


>>> bound_types = sig.bind_partial (int, z=int) 








>>> bound_types 

<inspect.BoundArguments object at 0x10069bb50> 

>>> bound_types.arguments 

OrderedDict ([('x', <class 'int'>), ('z', <class ‘int'>) ] 
>>> 


在 这 个 部 分 绑 定 中 ， 我 们 会 注意 到 缺失 的 参数 被 简单 地 忽略 掉 了 【( 即 ， 这 里 没有 对 参 
数 y 做 绑 定 )。 但 是 ， 绑 定 过 程 中 最 重要 的 部 分 就 是 创建 了 有 序 字 典 bound types. 
arguments。 这 个 字典 将 参数 名 以 函数 签名 中 相同 的 顺序 映射 到 所 提供 的 值 上 。 在 我 们 的 
装饰 器 中 ， 这 个 映射 包含 了 我 们 打算 强制 施行 的 类 型 断言 。 

在 由 装饰 器 构建 的 包装 函数 中 用 到 了 sig.bind() 方 法 。bind0 就 如 同 bind_partial0 一 样 ， 
只 是 它 不 允许 出 现 缺 失 的 参数 。 因 此 ， 下 面 的 示例 中 必须 给 出 所 有 的 参数 : 







































































>>> bound_values = sig.bind(1, 2, 3) 

>>> bound_values.arguments 
OrderedDict([{('x', 1), ('y', 2), ('z', 3)] 
>>> 


利用 这 个 映射 ， 要 强制 施行 断言 相对 来 说 就 很 简单 了 : 


>>> for name, value in bound_values.arguments.items(): 





if name in bound_types.arguments: 
if not isinstance (value, bound_types.arguments[name]): 
raise TypeError () 


>>> 


解决 方案 中 一 个 多 少 有 些微 妙 的 地 方 是 ， 对 于 具有 默认 值 的 参数 ， 如 果 未 提供 参数 ， 
则 断言 机 制 不 会 作用 在 其 默认 值 上 。 例 如， 下 面 的 代码 可 以 工作 ， 即 使 items 的 默认 值 


是 “错误 ”的 类 型 : 


>>> @typeassert (int, list) 



































. def bar(x, items=None): 
if items is None: 
items = [] 
items. append (x) 
return items 
>>> bar (2) 
[2] 
>>> bar (2,3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "contract.py", line 33, in wrapper 
TypeError: Argument items must be <class 'list'> 
>>> bar(4, [1, 2, 3]) 
[1, 2, 3, 4] 
>>> 


BUR RK FIL EMAC ER REALS PBC (function annotation ) 的 对 
比 了 。 Pa, DANERA EAA RAEE? 


@typeassert 








def spam(x:int, y, z:int = 42): 
print (x,y, Zz) 


不 使 用 函数 注解 的 一 个 可 能 原因 在 于 函数 的 每 个 参数 只 能 赋予 一 个 单独 的 注解 。 因 此 ， 


如 果 把 注解 用 于 类 型 断言 ， 则 它们 就 不 能 用 在 别处 了 。 此 外 ， 闭 饰 锅 @typeassert 不 能 
用 于 使 用 了 注解 的 函数 还 有 另 一 个 原因 。 如 同 解决 方案 中 展示 的 那样 ， 通 过 使 用 装饰 
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器 参数 ， 这 个 装饰 器 变 得 更 加 通用 了 ， 可 以 用 于 任何 函数 一 一 即使 是 使 用 了 注解 的 函 
数 也 是 如 此 。 


关于 函数 签名 对 象 的 更 多 信息 可 以 在 PEP 362 (http://www.python.org/dev/peps/ pep-0362 ) 
以 及 inspect 模块 的 文档 (http://docs.python.org/3/library/inspect.html ) 中 找到 。9.16 节 
中 也 有 一 个 额外 的 示例 可 供 参 考 。 


9.8 在 类 中 定义 装饰 器 


9.8.1 Riss 
我 们 想 在 类 中 定义 一 个 装饰 器 ， 并 将 其 作用 于 其 他 的 函数 或 者 方法 上 。 


9.8.2 解决 方案 


在 类 中 定义 一 个 装饰 器 是 很 直接 的 ， 但 是 首先 我 们 需要 理 清 装饰 器 将 以 什么 方式 来 应 
用 。 具 体 来 说 就 是 以 实例 方法 还 是 以 类 方法 的 形式 应 用 。 下 面 的 示例 说 明了 这 些 区 别 : 


from functools import wraps 
































class A: 
# Decorator as an instance method 
def decoratorl(self, func): 
@wraps (func) 
def wrapper (*args, **kwargs): 
print ('Decorator 1' 
return func(*args, **kwargs) 


return wrapper 


# Decorator as a class method 
@classmethod 
def decorator2(cls, func): 
@wraps (func) 
def wrapper (*args, **kwargs): 
print ('Decorator 2') 
return func(*args, **kwargs) 


return wrapper 


FERRARE TIC PY he Ti aie SS Hf A : 


# As an instance method 
a = A() 


@a.decorator1l 





def spam(): 
pass 


# As a class method 
@A.decorator2 
def grok(): 

pass 


观察 得 够 仔细 ， 就 会 发 现 其 中 一 个 装饰 顺 来 自 于 实例 a， 而 另 一 个 装饰 器 来 自 











98.3 ”讨论 

在 类 中 定义 装饰 器 乍 看 起 来 可 能 有 些 古 怪 , 但 是 在 标准 库 中 也 可 以 找到 这 样 的 例子 。 

ue LE, AEA tat @ property 实际 上 是 一 个 拥有 getter(), 、setter0 和 deleter(0) 方 法 的 
， 每 个 方法 都 可 作为 一 个 装饰 器 。 示 例如 下 : 


class Person: 











# Create a property instance 
first_name = property () 


# Apply decorator methods 

@first_name.getter 

def first name(self): 
return self. first name 


@first_name.setter 
def first name (self, value): 
if not isinstance(value, str): 
raise TypeError('Expected a string') 


self. first name = value 


至 于 为 什么 要 定义 成 这 种 形式 , 关键 原因 在 于 这 里 的 多 个 装饰 器 方法 都 在 操纵 property 
实例 的 状态 。 因 此 ， 如 果 需 要 装饰 器 在 背后 记录 或 合并 信息 ， 这 就 是 个 很 明智 的 
方法 。 

当 编 写 类 中 的 装饰 器 时 ， 一 个 常见 的 困惑 就 是 如 何在 装饰 器 代码 中 恰当 地 使 用 self 或 
cls BRC. 尽管 最 外 层 的 装饰 器 函数 比如 decorator10 或 decorator20 需 要 提供 一 个 self 或 
cls 参数 ( 因为 它们 是 类 的 一 部 分 ), 但 内 层 定 义 的 包装 函数 一 般 不 需要 包含 额外 的 参数 。 
这 就 是 为 什么 示例 中 两 个 装饰 器 创建 的 wrapperO 函 数 并 没有 包含 self 参数 的 原因 。 唯 
一 一 种 可 能 会 用 到 这 个 参数 的 场景 就 是 需要 在 包装 函数 中 访问 实例 的 某 个 部 分 。 否则， 
就 不 必 为 此 操心 。 
关于 把 装饰 器 定义 在 类 的 内 部 ， 还 有 最 后 一 个 微妙 的 方面 需要 考虑 。 那 就 是 它们 在 继 
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承 中 的 潜在 用 途 。 例 如 ， 假 设想 把 定义 在 类 A 中 的 装饰 器 施加 于 定义 在 子 类 B 中 的 方 
法 上 。 要 做 到 这 点 ， 需 要 像 这 样 编写 代码 : 
class B(A): 
@A.decorator2 
def bar(self): 
pass 


特别 是 , 这 里 的 装饰 器 必须 定义 为 类 方法 ,而 且 使 用 时 必须 显 式 地 给 出 父 类 A 的 名 称 。 
不 能 使 用 像 @B.decoator2 这 样 的 名 称 ， 因 为 在 定义 该 方法 的 时 候 类 B 根本 就 没有 创建 
出 来 。 

















9.9 把 装饰 器 定义 成 类 


9.9.1 问题 

我 们 想 用 装饰 器 来 包装 函数 ， 但 是 希望 得 到 的 结果 是 一 个 可 调用 的 实例 。 我 们 需要 装 
饰 器 既 能 在 类 中 工作 ， 也 可 以 在 类 外 部 使 用 。 

9.9.2 解决 方案 


要 把 装饰 器 定义 成 类 实例 ， 需 要 确保 在 类 中 实现 _call_O 和 ”get 0 方法 。 例如， 下 
面 的 代码 定义 了 一 个 类 ， 可 以 在 另 一 个 函数 上 添加 一 个 简单 的 性 能 分 析 层 : 


import types 











from functools import wraps 


class Profiled: 
def init (self, func): 
wraps (func) (self) 
self.ncalls = 0 


def call (self, *args, **kwargs): 
self.ncalls t= 1 
return self. wrapped_(*args, **kwargs) 


def get (self, instance, cls): 
if instance is None: 
return self 
else: 
return types.MethodType(self, instance) 


要 使 用 这 个 类 ， 可 以 像 一 个 普通 的 装饰 器 一 样 ， 要 么 在 类 中 要 么 在 类 外 部 使 用 : 
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@Profiled 
def add(x, y): 
return x + y 


class Spam: 
@Profiled 
def bar(self, x): 
print (self, x) 


下 面 的 交互 式 会 话 展示 了 这 些 函 数 是 如 何 工作 的 : 


>>> add(2, 3) 





>>> add(4, 5) 
>>> add.ncalls 


>>> s = Spam() 

>>> s.bar(1) 

<_main_.Spam object at 0x10069e9d0> 1 
>>> s.bar (2) 

<_main_.Spam object at 0x10069e9d0> 2 
>>> s.bar (3) 

<_main_.Spam object at 0x10069e9d0> 3 
>>> Spam.bar.ncalls 

3 


9.9.3 Wit 

把 装饰 顺 定 义 成 类 通常 是 简单 明了 的 。 但 是 ， 这 里 有 一 些 相当 微妙 的 细节 值得 做 进 一 

步 的 解释 ， 尤 其 是 计划 将 装饰 器 应 用 在 实例 的 方法 上 时 。 

首先 ， 这 里 对 如 nctools.wrapsO 函 数 的 使 用 和 在 普通 装饰 器 中 的 目的 一 样 一 一 意 在 从 被 
装 的 函数 中 拷贝 重要 的 元 数据 到 可 调用 实例 中 。 


其 次 ,解决 方案 中 所 展示 的 ”get 0 方法 常常 容易 被 忽视 。 如 果 省 上 略 掉 ”get OFF 
留 其 他 所 有 的 代码 ， 会 发 现 当 尝试 调用 被 装饰 的 实例 方法 时 会 出 现 怪异 的 行为 。 
例如 : 


>>> s = Spam() 
















































































>>> s.bar (3) 


Traceback (most recent call last): 


TypeError: spam() missing 1 required positional argument: 'x' 


出 错 的 原因 在 于 每 当 函 数 实现 的 方法 需要 在 类 中 进行 查询 时 ， 作 为 描述 符 协议 
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(descriptor protocol ) 的 一 部 分 , 它们 的 _get_ (0 方法 都 会 被 调用 ， 这 部 分 内 容 在 8.9 节 
中 已 描述 过 。 在 这 种 情况 下 ， get 0 的 目的 是 用 来 创建 一 个 绑 定 方法 对 象 ( 最 终 会 给 
方法 提供 self 参数 )。 下 面 的 例子 说 明了 其 中 的 机 理 : 








>>> s = Spam() 
>>> def grok(self, x): 
pass 


>>> grok. get__(s, Spam) 
<bound method Spam.grok of <_main_.Spam object at 0x100671e90>> 
>>> 


在 本 节 中 ，_ get (0 方法 在 这 里 确保 了 绑 定 方法 对 象 会 恰当 地 创建 出 来 type. 
MethodType0 手 动 创建 了 一 个 绑 定 方法 在 这 里 使 用 。 绑 定 方法 只 会 在 使 用 到 实例 的 时 候 
才 创 建 。 如 果 在 类 中 访问 该 方法 ，_get_ OW instance 参数 就 设 为 None， 直 接 返回 
Profiled 实例 本 身 。 这 样 就 使 得 获取 实例 的 ncalls 属性 成 为 可 能 。 


如 果 想 在 某 些 方面 避免 这 种 混乱 , 可 以 考虑 装饰 器 的 替代 方案 , 即 9.5 节 中 描述 过 的 利 
用 闭 包 和 nonlocal 变量 。 示 例如 下 : 














import types 
from functools import wraps 


def profiled(func): 
ncalls = 0 
@wraps (func) 
def wrapper (*args, **kwargs): 
nonlocal ncalls 
ncalls += 1 
return func(*args, **kwargs) 
wrapper.ncalls = lambda: ncalls 
return wrapper 


# Example 

@profiled 

def add(x, y): 
return x + y 











这 个 例子 使 用 起 来 和 之 前 的 方案 几乎 一 致 ,除了 现在 访问 ncalls 时 是 以 函数 属性 的 形式 
来 进行 。 示 例如 下 : 


>>> add (2, 3) 
5 
>>> add (4, 5) 





>>> add.ncalls() 
2 
>>> 


9.10 ”把 装饰 器 作用 到 类 和 静态 方法 上 


9.10.1 问题 
我 们 想 在 类 或 者 静态 方法 上 应 用 装饰 器 。 


9.10.2 解决 方案 


将 装饰 器 作用 到 类 和 静态 方法 上 是 简单 而 直接 的 ， 但 是 要 保证 装饰 器 在 应 用 的 时 候 需 
要 放 在 @classmethod 和 @staticmethod 之 前 。 示 例如 下 : 


























import time 
from functools import wraps 


# A simple decorator 
def timethis (func): 
@wraps (func) 
def wrapper (*args, **kwargs): 
start = time.time() 
= func(*args, **kwargs) 
end = time.time() 
print (end-start) 
return r 


return wrapper 


# Class illustrating application of the decorator to different kinds of methods 
class Spam: 
@timethis 
def instance method(self, n): 
print (self, n) 
while n > 0: 


n-=1 


@classmethod 

@timethis 

def class _method(cls, n): 
print (cls, n) 
while n > 0: 


n-=1 
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@staticmethod 
@timethis 
def static _method(n): 
print (n) 
while n > 0: 


n-=1 


上 面 代码 中 的 类 和 静态 方法 应 该 能 够 正常 工作 ， 此 外 还 为 它们 添加 了 额外 的 计时 功能 : 


>>> s = Spam() 

















>>> s.instance method (1000000) 

<_main_.Spam object at 0x1006a6050> 1000000 
0.11817407608032227 
>>> Spam.class_method (1000000) 
<class '_main_.Spam'> 1000000 
0.11334395408630371 
>>> Spam.static_method (1000000) 
1000000 

0.11740279197692871 

>>> 


9.10.3 ”讨论 
如 果 装 饰 器 的 顺序 搞 错 了 ， 那 么 将 得 到 错误 提示 。 例 如 ， 如 果 像 下 面 这 样 使 用 装饰 器 ; 


class Spam: 














@timethis 

@staticmethod 

def static _method(n): 
print (n) 


while n > 0: 


这 样 的 话 ， 调 用 static method Ait : 


>>> Spam.static method(1000000) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "timethis.py", line 6, in wrapper 
start = time.time() 
TypeError: 'staticmethod' object is not callable 
>>> 











这 里 的 问题 在 于 @classmethod Fl @staticmethod 并 不 会 实际 创建 可 直接 调用 的 对 象 。 相 
反 ， 它 们 创建 的 是 特殊 的 描述 符 对 象 ( 参见 8.9 节 中 对 描述 符 的 讲解 )、 因 此 ， 如 果 尝 
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试 在 另 一 个 装饰 器 中 像 函 数 那样 使 用 它们 ， 装 饰 器 就 会 月 溃 。 确 保 这 些 装 饰 器 出 现在 
@classmethod 和 @staticmethod 之 前 就 能 解决 这 个 问题 。 
本 节 提 到 的 技术 有 一 个 至 关 重 要 的 应 用 场景 ， 那 就 是 在 抽象 基 类 中 定义 类 方法 和 静态 
方法 ， 这 也 是 在 8.12 节 中 谈 到 的 主题 。 例 如 ， 如 果 想 定义 一 个 抽象 类 方法 ， 可 以 使 用 
下 面 的 代码 来 完成 : 


from abc import ABCMeta, abstractmethod 
























































class A(metaclass=ABCMeta) : 
@classmethod 
@abstractmethod 
def method(cls): 
pass 























在 上 述 代码 中 ，@classmethod 和 @abstractmethod 出 现 的 顺序 是 很 重要 的 。 如 果 将 这 两 
个 装饰 器 调换 一 下 位 置 ， 那 么 就 会 产生 崩溃 。 


9.11 编写 装饰 器 为 被 包装 的 函数 添加 参数 


9.11.1 问题 

我 们 想 编写 一 个 装饰 器 为 被 包装 的 函数 添加 额外 的 参数 。 但 是 ， 添 加 的 参数 不 能 影响 
到 该 函数 已 有 的 调用 约定 。 

9.11.2 ”解决 方案 


可 以 使 用 keyword-only 参数 将 额外 的 参数 注入 到 函数 的 调用 签名 中 。 考虑 如 下 的 装 
MIRAE : 


from functools import wraps 











def optional_debug (func): 
@wraps (func) 
def wrapper (*args, debug=False, **kwargs): 
if debug: 
print ('Calling', func. name ) 
return func(*args, **kwargs) 
return wrapper 


下 面 的 示例 展示 了 装饰 器 是 如 何 工作 的 : 


>>> @optional_debug 





. def spam(a,b,c): 
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print (a,b,c) 


>>> spam(1,2,3) 

1.2.03 

>>> spam(1,2,3, debug=True) 
Calling spam 

123 

>>> 


9.11.3 ”讨论 
为 被 包装 的 函数 添加 额外 的 参数 并 不 是 装饰 器 最 常见 的 用 法 。 但 是 ， 对 于 避免 某 些 特 
定 的 代码 重复 模式 来 说 是 一 项 有 用 的 技术 。 例 如 ， 如 果 有 一 些 这 样 的 代码 : 


def a(x, debug=False): 
if debug: 

















print ('Calling a') 


def b(x, y, z, debug=False): 
if debug: 
print ('Calling b') 


def c(x, y, debug=False): 
if debug: 
print ('Calling c') 


可 以 将 这 些 代码 重 构 为 如 下 形式 : 


@optional_debug 
def a(x): 


@optional_debug 
def b(x, y, zZ): 


@optional_debug 
def c(x, y): 


本 节 给 出 的 实现 依赖 于 这 样 一 个 事实 ， 即 keyword-only 参数 可 以 很 容易 地 添加 到 那些 
以 *args 和 **kwargs 作为 形 参 的 函数 上 。keyword-only 参数 会 作为 特殊 情况 从 随后 的 调 
用 中 挑选 出 来 ， 调 用 函数 时 只 会 使 用 剩 下 的 位 置 参数 和 关键 字 参 数 。 
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在 的 名 称 冲突 问题 。 例 如 ， 如 果 把 @optional debug 装饰 器 作用 到 一 个 已 经 把 debug 作 
为 参数 的 函数 上 ， 此 时 就 会 出 错 。 要 解决 这 个 问题 ， 需 要 添加 额外 的 检查 : 


from functools import wraps 














import inspect 


def optional debug (func): 
if 'debug' in inspect.getargspec (func) .args: 
raise TypeError('debug argument already defined') 


@wraps (func) 
def wrapper (*args, debug=False, **kwargs): 
if debug: 
print ('Calling', func. name ) 
return func(*args, **kwargs) 
return wrapper 


本 节 中 最 后 一 个 需要 考虑 修改 的 地 方 在 于 如 何 恰当 地 管理 函数 签名 。 精 明 的 程序 员 会 
意识 到 被 包装 函数 的 签名 是 错误 的 。 例 如 : 
>>> @optional_debug 


. def add(x,y): 
return xty 








>>> import inspect 
>>> print (inspect.signature (add) ) 


(x, y) 


这 可 以 通过 如 下 的 修改 来 解决 : 


from functools import wraps 





import inspect 


def optional_debug (func): 
if 'debug' in inspect.getargspec(func) .args: 
raise TypeError('debug argument already defined') 


@wraps (func) 
def wrapper (*args, debug=False, **kwargs): 
if debug: 
print ('Calling', func. name ) 
return func(*args, **kwargs) 


sig = inspect.signature (func) 
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parms = list (sig.parameters.values()) 

parms. append (inspect .Parameter ('debug', 
inspect .Parameter.KEYWORD_ONLY, 
default=False) ) 

wrapper. signature_ = sig.replace (parameters=parms) 

return wrapper 


修改 之 后 ， 现 在 包装 函数 的 签名 就 能 正确 反映 出 debug 参数 了 。 示 例如 下 : 


>>> @optional_debug 
. def add(x,y): 
return xty 





>>> print (inspect.signature (add) ) 
(x, y, *, debug=False) 

>>> add(2, 3) 

5 

>>> 








要 获得 更 多 有 关 函 数 签名 方面 的 信息 ， 可 参阅 9.16 节 。 


9.12 利用 装饰 器 给 类 定义 打 补 丁 


9.12.1 问题 


我 们 想 检 查 或 改写 一 部 分 类 的 定义 ， 以 此 来 修改 类 的 行为 ， 但 是 不 想 通 过 继承 或 者 元 
类 的 方式 来 做 。 


9.12.2 ”解决 方案 


对 于 类 装饰 器 来 说 这 是 绝 佳 的 应 用 场景 。 比 方 说 ， 下 面 有 一 个 类 装饰 需 重 写 了 
_ getattribute “特殊 方法 ， 为 其 加 上 了 日 志 记录 功能 。 


def log_getattribute(cls): 
# Get the original implementation 




















orig_getattribute = cls. getattribute __ 


# Make a new definition 
def new_getattribute(self, name): 
print ('getting:', name) 
return orig _getattribute(self, name) 


# Attach to the class and return 
s._getattribute_ = new_getattribute 
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return cls 


# Example use 
@log_getattribute 
class A: 
def init (self,x): 
self.x = x 
def spam(self): 
pass 


如 果 试 着 使 用 解决 方案 中 给 出 的 类 ， 就 会 得 到 以 下 结果 : 


>>> a = A(42) 





>>> a.x 
getting: x 

42 

>>> a.spam() 
getting: spam 
>>> 


9.12.3 讨论 


类 装饰 器 常常 可 以 直接 作为 涉及 混合 类 (mixin) 或 者 元 类 等 高 级 技术 的 替代 方案 。 











如 ， 对 于 解决 方案 中 的 例子 ， 另 一 种 可 选 的 实现 方法 是 使 用 继承 : 


class LoggedGetattribute: 





def _getattribute_(self, name): 


print ('getting:', name) 
return super(). getattribute (name) 
# Example: 


class A(LoggedGetattribute) : 
def init (self,x): 
self.x =x 
def spam(self): 
pass 





例 


这 么 做 可 行 , 但 是 要 想 理解 其 中 的 原理 ， 则 必须 对 方法 解析 顺序 (MRO )、superO 以 及 
其 他 有 关 继 承 方面 的 知识 有 所 了 解 EIL 8.7 节 )。 从 某 种 意义 上 说 ， 类 装饰 器 这 种 解 








决 方案 要 更 加 直接 ， 而 且 不 会 在 继承 体系 中 引入 新 的 依赖 关系 。 事 实证 明 ， 由 
赖 对 super(O) 函 数 的 使 用 ， 运 行 速度 也 会 稍 快 一 些 。 





























于 不 依 


如 果 要 将 多 个 类 装饰 器 作用 于 某 个 类 之 上 ， 那么 可 能 需要 考虑 添加 的 顺序 问题 。 例 如 ， 如 














装 ， 添 加 一 些 额外 的 逻辑 处 理 ， 那 么 很 可 能 需要 先 将 第 一 个 装饰 需 作 用 于 类 上 。 





果 某 个 装饰 需 是 用 全 新 的 实现 来 蔡 换 一 个 类 方法 ， 而 兄 一 个 装饰 需 只 是 对 已 有 的 方法 做 包 
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请 参考 8.13 节 中 另 一 个 关于 类 装饰 器 的 示例 。 


9.13 利用 元 类 来 控制 实例 的 创建 


9.13.1 问题 
我 们 想 改 变 实例 创建 的 方式 ， 以 此 来 实现 单 例 模式 、 组 存 或 者 其 他 类 似 的 特性 。 
9.13.2 ”解决 方案 


作为 Python 程序 员 ， 大 家 都 应 该 知道 如 果 定 义 了 一 个 类 ， 那 么 创建 实例 时 就 好 像 在 调 
用 一 个 函数 一 样 。 示 例如 下 : 


class Spam: 











def init (self, name): 


self.name = name 


a = Spam('Guido') 
b = Spam('Diana') 


如 果 想 定制 化 这 个 步 又 , 则 可 以 通过 定义 一 个 元 类 并 以 某 种 方式 重新 实现 它 的 _call 0 
方法 。 为 了 说 明 这 个 过 程 ， 假 设 我 们 不 想 让 任何 人 创建 出 实例 : 


class NoInstances (type) : 








def call (self, *args, **kwargs): 
raise TypeError ("Can't instantiate directly") 


# Example 
class Spam(metaclass=NoInstances) : 
@staticmethod 
def grok (x): 
print ('Spam.grok') 


在 这 种 情况 下 ， 用 户 可 以 调用 定义 的 静态 方法 ,但 是 没 法 以 普通 的 方式 创建 出 实例 。 
示例 如 下 : 


>>> Spam.grok (42) 





























Spam.grok 
>>> s = Spam() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "examplel.py", line 7, in _call_ 
raise TypeError ("Can't instantiate directly") 


TypeError: Can't instantiate directly 
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现在 ,假设 我 们 想 实 现 单 例 模式 ( 即 ， 这 个 类 只 能 创建 唯一 的 一 个 实例 )。 相 对 来 说 这 


就 很 直接 了 ， 示 例如 下 : 


class Singleton (type): 





def init (self, *args, **kwargs): 


None 


self. instance 


super(). init (*args, **kwargs) 


def call (self, *args, **kwargs): 
if self. instance is None: 
self. instance = super(). call (*args, **kwargs) 
return self. instance 
else: 
return self. instance 
# Example 
class Spam(metaclass=Singleton) : 
def init (self): 
print ('Creating Spam') 


在 这 种 情况 下 ， 这 个 类 只 能 创建 出 唯一 的 实例 。 示 例如 下 : 


>>> a = Spam() 
Creating Spam 
>>> b = Spam() 
>>> a is b 
True 


>>> C 


= Spam() 
>>> a is c 
True 


>>> 


最 后 ， 假 设 我 们 想 创 建 缓存 实例 (cached instance, 8.25 节 有 介绍 )。 我 们 月 





import weakref 


class Cached (type) : 
def init (self, *args, **kwargs): 
super(). init _(*args, **kwargs) 


self. cache weakref.WeakValueDictionary () 
def call (self, *args): 
if args in self. cache: 
return self. cache[args] 
else: 
obj = super(). call (*args) 


self. cache [args] 


obj 


一 个 元 类 来 实现 : 
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return obj 


# Example 
class Spam (metaclass=Cached) : 
def init (self, name): 
print ('Creating Spam({!r})'.format (name) ) 


self.name = name 


下 面 的 交互 式 会 话 展示 了 这 个 类 的 行为 : 


>>> a = Spam('Guido') 





Creating Spam('Guido') 

>>> b = Spam('Diana') 

Creating Spam('Diana') 

>>> c = Spam('Guido') # Cached 

>>> a is b 

False 

>>> a isc # Cached value returned 
True 

>>> 


9.13.3 讨论 
通过 元 类 来 实现 各 种 创建 实例 的 模式 常常 比 那些 不 涉及 元 类 的 解决 方案 要 优雅 。 如 果 
不 用 元 类 ， 那 就 得 将 类 隐藏 在 某 种 额外 的 工厂 函数 之 后 。 例 如 ， 要 实现 单 例 模式 ， 可 
能 会 用 到 下 面 这 种 技巧 : 

class _Spam: 


def init (self): 
print ('Creating Spam') 




















_spam_instance = None 
def Spam(): 
global _spam_instance 
if spam instance is not None: 
return _spam instance 
else: 
_spam_instance = _Spam() 
return _spam instance 


尽管 使 用 元 类 的 解决 方案 涉及 许多 更 加 高 级 的 概念 ,但 最 终 的 代码 看 起 来 会 更 加 清晰 ， 
也 没有 那么 多 所 谓 的 技巧 。 


参见 8.25 节 以 得 到 更 多 关于 创建 缓存 实例 、 弱 引用 (weak reference ) 以 及 其 他 细节 方 
面 的 信息 。 

















366 第 9 章 


9.14 获取 类 属性 的 定义 顺序 


9.14.1 ”问题 

我 们 想 自动 记录 下 属性 和 方法 在 类 中 定义 的 顺序 ， 这 样 就 能 利用 这 个 顺序 来 完成 各 种 
操作 ( 例如 序列 化 处 理 、 将 属性 映射 到 数据 库 中 等 )。 

9.14.2 解决 方案 


要 获取 类 定义 体 中 的 有 关 信 息 ， 可 以 通过 元 类 来 轻松 实现 。 在 下 面 的 示例 中 ， 元 类 使 
用 OrderedDict ( 有 序 字典 ) 来 获取 描述 符 的 定义 顺序 : 


from collections import OrderedDict 

















# A set of descriptors for various types 
class Typed: 

_expected_type = type (None) 

def init__(self, name=None): 


self. name = name 


def set (self, instance, value): 
if not isinstance(value, self. expected_type) : 
raise TypeError('Expected ' + str(self. expected_type) ) 


instance. dict [self. name] = value 


class Integer (Typed) : 
_expected_type = int 


class Float (Typed) : 
_expected_type = float 


class String (Typed) : 





_expected_type = str 


# Metaclass that uses an OrderedDict for class body 
class OrderedMeta (type) : 
def new (cls, clsname, bases, clsdict): 
d = dict (clsdict) 
order = [] 
for name, value in clsdict.items(): 
if isinstance(value, Typed): 
value. name = name 


order. append (name) 
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d['_order'] = order 
return type. new (cls, clsname, bases, d) 


@classmethod 
def prepare (cls, clsname, bases): 
return OrderedDict () 








在 这 个 元 类 中 ,描述 符 的 定义 顺序 是 通过 使 用 OrderedDict 在 执行 类 的 定义 体 时 获取 到 


的 。 得 到 的 结果 会 从 字典 中 提取 出 来 然后 保存 到 类 的 属性 o 
够 以 各 种 方式 使 用 属性 _order。 例 如 ， 下 面 这 个 简单 的 类 利用 
用 来 将 实例 数据 序列 化 为 一 行 CSV 数据 : 


class Structure (metaclass=OrderedMeta): 

















def as csv(self): 
return ','.join(str(getattr(self,name)) for name in 


# Example use 
class Stock (Structure) : 
name = String() 
shares = Integer () 
price = Float () 
def init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


下 面 的 交互 式 会 话 展示 了 如 何 使 用 例子 中 的 Stock 类 : 


>>> s = Stock ('GOOG',100,490.1) 

>>> s.name 

"GOOG' 

>>> S.as_csv() 

"GOOG, 100,490.1' 

>>> t = Stock('AAPL','a lot', 610.23) 


Traceback (most recent call last): 





File "<stdin>", line 1, in <module> 

File "dupmethod.py", line 34, in _init_ 
TypeError: shares expects <class 'int'> 
>>> 


9.14.3 iit 


rder 中 。 这 之 后 , 类 方法 能 
这 个 顺序 实现 了 一 个 方法 ， 


self. order) 


本 节 的 全 部 核心 就 在 ”prepare 0 方法 上 ， 该 特殊 方法 定义 在 元 类 OrderedMeta 中 。 
该 方法 会 在 类 定义 一 开始 的 时 候 立 刻 得 到 调用 ， 调 用 时 以 类 名 和 基 类 名 称 作为 参数 。 
它 必须 返回 一 个 映射 型 对 象 ( mapping object ) 供 处 理 类 定义 体 时 使 用 。 由 于 返回 的 















































是 OrderedDict 实例 而 不 是 普通 的 字典 ， 因 此 类 中 各 个 属 怕 





E 间 的 顺序 就 可 以 方便 地 得 
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到 维护 。 


如 果 想 使 用 自 定义 的 字典 型 对 象 ， 那 么 对 上 述 功能 进行 扩展 也 是 有 可 能 的 。 例 如 ， 考 
虑 下 面 这 个 解决 方案 ， 它 可 以 拒绝 类 中 出 现 重 复 的 定义 : 


from collections import OrderedDict 














class NoDupOrderedDict (OrderedDict) : 
def init (self, clsname): 
self.clsname = clsname 
super().__init_ () 
def setitem (self, name, value): 
if name in self: 
raise TypeError('{} already defined in {}'.format (name, self.clsname) ) 


super(). setitem (name, value) 


class OrderedMeta (type): 
def new (cls, clsname, bases, clsdict): 
d = dict(clsdict) 
d['_order'] = [name for name in clsdict if name[0] != ' '] 


return type. new (cls, clsname, bases, d) 


@classmethod 
def prepare (cls, clsname, bases): 


return NoDupOrderedDict (clsname) 


如 果 使 用 这 ， 并 且 创 建 一 个 类 让 它 拥有 重复 的 属性 ， 看 看 会 发 生 什么 吧 


>>> class A(metaclass=OrderedMeta) : 


def spam(self): 





pass 
def spam(self): 
pass 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in A 
File "dupmethod2.py", line 25, in _setitem_ 
(name, self.clsname) ) 


TypeError: spam already defined in A 
>>> 


本 方 中 最 后 一 个 需要 考虑 的 重要 部 分 是 在 元 类 的 _new 0 方法 中 对 自 定义 的 字典 应 该 
ees EON ee 定义 中 使 用 的 是 其 他 形式 的 字典 ， 当 创建 最 终 的 类 对 象 时 ， 
还 是 需要 将 这 个 字典 转换 为 一 个 合适 的 dict 实例 才 行 。 这 正 是 d= dict(clsdict) 这 行 代码 
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的 目的 所 在 。 

能 够 获取 到 类 属性 的 定义 顺序 看 起 来 似乎 微不足道 ， 但 对 于 某 些 特定 类 型 的 应 用 来 说 
却 是 非常 重要 的 功能 。 例 如 ， 在 一 个 对 象 关系 映射 器 ( ORM ) 中 ， 类 的 编写 方式 可 能 
同 示例 中 展示 的 那样 很 相似 : 


class Stock (Model): 


name = String() 












































shares = Integer () 
price = Float () 


而 在 底层 ， 可 能 想 获取 到 属性 定义 的 顺序 ， 以 此 将 对 象 映 射 到 数据 库 表 项 中 的 元 组 或 
者 行 上 ( 即 ， 和 示例 中 as_csv0 方 法 实现 的 功能 类 似 )。 本 节 给 出 的 解决 方案 是 非常 直 
截 了 当 的 ， 而 且 通 常情 况 下 比 其 他 可 选 的 方法 要 更 简单 (一 般 会 通过 在 描述 符 类 中 维 
护 一 个 隐藏 的 计数 器 来 实现 )。 


















































9.15 ”定义 一 个 能 接受 可 选 参数 的 元 类 


9.15.1 问题 

我 们 想 定义 一 个 元 类 ， 使 得 在 定义 类 的 时 候 能 够 提供 可 选 的 参数 。 这 样 的 话 在 创建 类 
型 的 时 候 可 以 对 处 理 过 程 进行 控制 或 配置 。 

9.15.2 ”解决 方案 


在 定义 类 的 时 候 ,Python 允许 我 们 在 class 语句 中 通过 使 用 metaclass 关键 字 参 数 来 指定 
元 类 。 例 如 ， 在 抽象 基 类 中 我 们 可 以 这 样 指定 元 类 : 


from abc import ABCMeta, abstractmethod 








class IStream (metaclass=ABCMeta): 
Qabstractmethod 
def read(self, maxsize=None): 


pass 


@abstractmethod 
def write(self, data): 
pass 


， 在 自 定 义 的 元 类 中 我 们 还 可 以 提供 额外 的 关键 字 参 数 ， 就 像 这 样 : 


class Spam(metaclass=MyMeta, debug=True, synchronize=True) : 








© 
条 








要 在 元 类 中 支持 这 样 的 关键 字 参 数 ， 需 要 保证 在 定义 _prepare O, _ new 0 以 及 
init 0 方法 时 使 用 keyword-only 参数 来 指定 它们 ， 就 像 下 面 这 样 : 


class MyMeta (type): 








# Optional 
@classmethod 
def prepare (cls, name, bases, *, debug=False, synchronize=False) : 


# Custom processing 
return super(). prepare (name, bases) 


# Required 
def _new_ (cls, name, bases, ns, *, debug=False, synchronize=False) : 


# Custom processing 
return super(). new (cls, name, bases, ns) 


# Required 
def init__(self, name, bases, ns, *, debug=False, synchronize=False) : 


# Custom processing 


super(). init (name, bases, ns) 


9.15.3 ”讨论 

要 对 元 类 添加 可 选 的 关键 字 参 数 ， 需 要 理解 类 创建 过 程 中 所 涉及 的 所 有 步 又。 这 是 因 
为 额外 的 参数 会 传递 给 每 一 个 与 该 过 程 相关 的 方法 。 prepare 0 方法 是 第 一 个 被 调用 
的 ， 用 来 创建 类 的 名 称 空间 ， 这 是 在 处 理 类 的 定义 体 之 前 需要 完成 的 。 一 般 来 说 ， 这 个 
方法 只 是 简单 地 返回 一 个 字典 或 者 其 他 的 映射 型 对 象 。 new 0 方法 用 来 实例 化 最 终 
得 到 的 类 型 对 象 , 它 会 在 类 的 定义 体 被 完全 执行 完毕 后 才 调 用 。 最 后 调用 的 是 init 0 
方法 ， 用 来 执行 任何 其 他 额外 的 初始 化 步骤 。 

当 编 写 元 类 时 ， 比 较 和 常见 的 做 法 是 只 定义 一 个 _new_ ORA int 0 方法 ， 而 不 会 同 
时 定义 这 两 者 。 但 是 ， 如 果 打 算 接受 额外 的 关键 字 参 数 ， 那 么 这 两 个 方法 都 必须 提供 ， 
并 日 要 提供 可 兼容 的 函数 签名 。 BRAY prepare 0 方法 可 接受 任意 的 关键 字 参 数 ， 只 
是 会 忽略 它们 。 唯一 一 种 需要 自行 定义 ”prepare 0 方法 的 情况 就 是 当 额 外 的 参数 多 少 
会 影响 到 名 称 空间 的 创建 管理 时 。 


本 节 中 使 用 了 keyword-only 参数 ， 这 也 反映 出 一 个 事实 ， 即 这 样 的 参数 在 创建 类 的 过 
程 中 只 会 以 关键 字形 式 提 供 。 
用 关键 字 参 数 来 配置 元 类 也 可 以 看 做 是 通过 类 变量 来 实现 同一 目标 的 另 一 种 方式 。 例 
如 我 们 也 可 以 这 样 实现 对 类 的 配置 : 


class Spam(metaclass=MyMeta) : 
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debug = True 


synchronize = True 





通过 提供 额外 参数 的 方式 来 实现 ， 这 么 做 的 优点 在 于 它们 不 会 污染 类 的 名 称 空间 。 因 
为 这 些 参数 只 对 于 类 的 创建 而 言 有 意义 ， 对 于 类 中 需要 执行 的 语句 来 说 是 没有 实际 意 
义 的 。 此 外 , EMT prepare 0 方法 来 说 是 可 见 的 ， 而 该 方法 会 在 处 理 类 定义 体 中 
任何 语句 之 前 先 得 到 运行 。 而 男 一 方面 ， 类 变量 只 能 被 元 类 的 _new OM init 0 方 
法 访问 。 




















9.16 在 *args 和 **kwargs 上 强制 规定 一 种 参数 签名 


9.16.1 问题 

我 们 已 经 编写 了 一 个 使 用 *args 和 **kwargs 作为 参数 的 函数 或 者 方法 ,这样 使 得 函数 成 
为 通用 型 的 ( 即 ， 可 接受 任意 数量 和 类 型 的 参数 )。 但 是 我 们 也 想 对 传 入 的 参数 做 检 
查 ， 看 看 它们 是 否 匹配 了 某 个 特定 的 函数 调用 签名 。 


9.16.2 解决 方案 


任何 关于 操作 函数 调用 签名 的 问题 ， 都 应 该 使 用 inspect 模块 中 的 相应 功能 。 这 里 我 们 
尤其 感 兴趣 的 是 Signature 和 Parameter 这 两 个 类 ,下 面 用 一 个 交互 式 的 例子 来 说 明 如 何 
创建 一 个 函数 签名 : 


>>> from inspect import Signature, Parameter 
































>>> # Make a signature for a func(x, y=42, *, z=None) 

>>> parms = [ Parameter('x', Parameter.POSITIONAL OR_KEYWORD) , 
Parameter('y', Parameter.POSITIONAL_OR_KEYWORD, default=42), 
Parameter('z', Parameter.KEYWORD ONLY, default=None) ] 

>>> sig = Signature (parms) 

>>> print (sig) 

(x, y=42, *, z=None) 

>>> 


一 旦 有 了 签名 对 象 ， 就 可 以 通过 对 象 的 bind0 方 法 轻松 将 其 绑 定 到 *args Al *kwargs 上 。 示 
例如 下 : 
>>> def func(*args, **kwargs): 
bound_values = sig.bind(*args, **kwargs) 
for name, value in bound_values.arguments.items(): 
print (name, value) 


>>> # Try various examples 





可 以 看 到 ， 将 签 





= 


>>> func(1, 2, z=3) 
x AL 

y 2 

Zz 3 

>>> func(1) 

x1 

>>> func(1, z=3) 

x 1 

z 3 

>>> func(y=2, x=1) 
xl 

y 2 

>>> func(1, 2, 3, 4) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect. 

raise TypeError('too many positional 

TypeError: too many positional arguments 
>>> func (y=2) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect. 
raise TypeError(msg) from None 
TypeError: 'x' parameter lacking default 
>>> func(1, y=2, x=3) 


Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect. 


"{arg!r}'. format (arg=param.name) ) 


TypeError: multiple values for argument 'x' 


>>> 





| 

















, line 1972, in _bind 


, line 1961, in _bind 


, line 1985, in bind 





重复 的 参数 等 。 
具体 的 例子 。 在 代码 中 ， 











from inspect import Signature, Parameter 


def make_sig(*names) : 


parms = [Parameter (name, Parameter.POSITIONAL_OR KEYWORD) 


for name in names] 


return Signature (parms) 


class Structure: 


BRAVE BEANE BCE 2 oe rl EAT TA FLAY PRIA FLU, ad 
血 要 求 必 传 的 参数 ( 例子 中 为 x )、 默 认 值 、 


关于 强制 施行 函数 签名 ， 这 里 有 一 个 更 为 8 
其 通用 的 _init OFTHE, 但 是 子 类 只 提供 


基 类 定义 了 一 个 极 
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__signature_ = make_sig() 

def init (self, *args, **kwargs): 
bound_values = self._signature_.bind(*args, **kwargs) 
for name, value in bound_values.arguments.items(): 


setattr(self, name, value) 


# Example use 
class Stock (Structure) : 


_ Signature = make_sig('name', 'shares', 'price') 


class Point (Structure): 


_ signature = make_sig('x', 'y') 


下 面 的 交互 式 会 话说 明了 Stock 类 是 如 何 工作 的 : 


>>> import inspect 
>>> print (inspect.signature (Stock) ) 
(name, shares, price) 

>>> sl = Stock('ACME', 100, 490.1) 
>>> s2 = Stock('ACME', 100) 


Traceback (most recent call last): 


TypeError: 'price' parameter lacking default value 
>>> s3 = Stock('ACME', 100, 490.1, shares=50) 
Traceback (most recent call last): 





TypeError: multiple values for argument 'shares' 
>>> 


9.16.3 ”讨论 





当 需 要 编写 通用 型 的 库 、 编 写 装饰 器 或 者 实现 代理 时 ， 使 用 形 参 为 *args 和 **kwargs 的 















































函数 是 非常 常见 的 。 但是， 这 种 函数 的 一 个 缺点 就 是 如 果 想 实现 自己 的 参数 检查 机 币 








1 


> 


代码 很 快 就 会 变 的 笨拙 而 混乱 。 这 方面 的 例子 可 参考 8.11 方 。 使 用 签名 对 象 则 能 简化 


这 个 步骤 。 





在 解决 方案 的 最 后 一 个 例子 中 ， 如 果 使 用 自 定义 的 元 类 来 创建 签名 对 象 也 是 很 有 意义 























的 。 下 面 的 示例 展示 了 这 种 替代 方案 是 如 何 实现 的 : 


from inspect import Signature, Parameter 


def make_sig(*names) : 
parms = [Parameter (name, Parameter.POSITIONAL_OR KEYWORD) 
for name in names] 


return Signature (parms) 
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class StructureMeta (type) : 
def new (cls, clsname, bases, clsdict): 
clsdict['_signature_'] = make_sig(*clsdict.get(' fields',[])) 
return super(). new (cls, clsname, bases, clsdict) 


class Structure (metaclass=StructureMeta) : 
_fields = [] 
def init__(self, *args, **kwargs): 
bound_values = self. signature_.bind(*args, **kwargs) 
for name, value in bound_values.arguments.items(): 
setattr(self, name, value) 
# Example 
class Stock (Structure): 
_fields = ['name', 'shares', 'price'] 


class Point (Structure): 
_fields = ['x', 'y'] 
当 定 义 定 制 化 的 签名 时 , 把 签名 对 象 保 存 到 一 个 特殊 的 属性 _signature “中 常常 是 很 有 
用 的 。 如 果 这 么 做 了 ， 使 用 了 inspect 模块 的 代码 在 执行 反射 (introspection ) 操作 时 将 
能 够 获取 到 签名 并 将 其 作为 函数 的 调用 约定 。 示 例如 下 : 


>>> import inspect 





>>> print (inspect.signature (Stock) ) 
(name, shares, price) 
>>> print (inspect .signature (Point) ) 


(x, y) 
>>> 


9.17 在 类 中 强制 规定 编码 约定 


9.17.1 问题 

我 们 的 程序 由 一 个 庞大 的 类 继承 体系 组 成 ， 我 们 想 强 制 规定 一 些 编码 约定 (或 者 做 一 
些 诊断 工作 )， 使 得 维护 这 个 程序 的 程序 员 能 够 轻松 一 些 。 

9.17.2 解决 方案 

如 果 想 对 类 的 定义 进行 监控 ,通常 可 以 用 元 类 来 解决 。 一 个 基本 的 元 类 通常 可 以 通过 
从 type 中 继承 ， 然 后 重 定义 它 的 _new ORÉ init 0 方法 即 可 。 示 例如 下 : 


class MyMeta (type): 






































def new (self, clsname, bases, clsdict): 


# clsname is name of class being defined 
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# bases is tuple of base classes 
# clsdict is class dictionary 
return super(). new (cls, clsname, bases, clsdict) 


另 一 种 方式 是 定义 int 0: 


class MyMeta (type): 
def init (self, clsname, bases, clsdict): 
super(). init (clsname, bases, clsdict) 
# clsname is name of class being defined 
# bases is tuple of base classes 
# clsdict is class dictionary 


要 使 用 元 类 ， 一 般 来 说 会 将 其 作用 到 一 个 顶层 基 类 上 ， 然 后 让 其 他 子 类 继承 之 。 示 例 
如 下 : 


class Root (metaclass=MyMeta): 
pass 


class 及 (Root ) : 
pass 


class B(Root): 
pass 


元 类 的 一 个 核心 功能 就 是 允许 在 定义 类 的 时 候 对 类 本 身 的 内 容 进行 检查 。 在 重新 定义 
AY init 0 方法 中 ,我 们 可 以 自由 地 检查 类 字典 、 基 类 以 及 其 他 更 多 信息 。 此 外 ,一 
旦 为 某 个 类 指定 了 元 类 ， 该 类 的 所 有 子 类 都 会 自动 继承 这 个 特性 。 因 此 ， 聪 明 的 框架 
实现 者 可 以 在 庞大 的 类 继承 体系 中 为 其 中 一 个 顶层 基 类 指定 一 个 元 类 ， 然 后 就 可 以 获 
取 到 位 于 该 基 类 之 下 的 所 有 子 类 的 定义 了 。 

下 面 是 一 个 有 些 异想天开 的 例子 ， 这 里 的 元 类 可 用 来 拒绝 类 定义 中 包含 大 小 写 混用 的 


方法 名 ( 也 许 这 就 是 为 了 恶心 一 下 Java 程序 员 ): 


class NoMixedCaseMeta (type): 
def new (cls, clsname, bases, clsdict): 




















for name in clsdict: 


if name.lower() != name: 
raise TypeError('Bad attribute name: ' + name) 
return super(). new (cls, clsname, bases, clsdict) 


class Root (metaclass=NoMixedCaseMeta) : 
pass 


class A(Root): 
def foo bar(self): # Ok 
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pass 


class B (Root): 
def fooBar (self): # TypeError 
pass 








作为 一 个 更 加 高 级 而 且 有 用 的 例子 ， 下 面 定义 的 元 类 可 检查 子 类 中 是 否 有 重新 定义 的 


方法 ,确保 它们 的 调用 签名 和 父 类 中 原始 的 方法 相同 。 


from inspect import signature 





import logging 


class MatchSignaturesMeta (type): 
def init (self, clsname, bases, clsdict): 
super(). init (clsname, bases, clsdict) 
sup = super(self, self) 
for name, value in clsdict.items(): 
if name.startswith(' ') or not callable (value): 
continue 
# Get the previous definition (if any) and compare the signatures 
prev dfn = getattr (sup, name, None) 
if prev_dfn: 
prev_sig = signature (prev dfn) 
val_sig = signature (value) 
if prev_sig != val sig: 


oo 


logging.warning('Signature mismatch in %s. %s != %s', 
value. qualname , prev_sig, val_sig) 

# Example 

class Root (metaclass=MatchSignaturesMeta) : 


pass 


class A(Root): 
def foo(self, x, y): 
pass 


def spam(self, x, *, z): 
pass 


# Class with redefined methods, but slightly different signatures 
class B(A): 
def foo(self, a, b): 
pass 


def spam(self,x,z): 
pass 
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如 果 运 行 上 述 代码 ， 将 得 到 如 下 的 输出 : 


WARNING:root:Signature mismatch in B.spam. (self, x, *, z) != (self, x, 2) 
WARNING: root:Signature mismatch in B.foo. (self, x, y) != (self, a, b) 


类 似 这 样 的 告警 信息 可 能 对 于 捕获 微妙 的 程序 bug 会 很 有 帮助 。 比 方 说 ， 某 个 方法 依 
赖 于 传递 给 它 的 关键 字 参 数 ， 如 果子 类 修改 了 参数 名 称 那 么 就 会 朋 演 。 


9.17.3 ”讨论 

在 一 个 大 型 的 面向 对 象 程序 中 ， 有 时 候 通过 
以 监视 类 的 定义 ， 可 用 来 警告 程序 员 那 些 可 
容 的 方法 签名 )。 

有 些 人 可 能 会 认为 像 这 种 错误 最 好 用 程序 分 析 工 具 或 者 IDE 来 捕获 。 确 实 ， 这 类 工 」 
是 非常 有 用 的 。 但 是 ， 如 果 正 在 创建 一 个 由 其 他 人 使 用 的 框架 或 者 库 ， 那 么 通常 是 无 
法 控制 其 他 开发 者 的 开发 流程 的 ( 如果 他 们 不 用 这 类 工具 怎么 办 ? )。 因 此 ， 对 于 特定 
类 型 的 应 用 ， 在 元 类 中 做 一 些 额 外 的 检查 是 很 有 意义 的 ， 这 类 检查 常常 使 得 产品 有 着 
更 好 的 用 户 体验 。 


至 于 在 元 类 中 是 重新 定义 new OME init _ 0， 这 取决 于 我 们 打算 如 何 使 用 得 到 的 
结果 类 。 new 0 会 在 类 创建 之 前 先 得 到 调用 ， 当 元 类 想 以 某 种 方式 修改 类 的 定义 时 
(通过 修改 类 字典 中 的 内 容 ) 一 般 会 用 这 种 方法 。 而 _init_() 方 法 会 在 类 已 经 创建 完成 
之 后 才 得 到 调用 ， 如 果 想 编写 代码 同 完全 成 形 (fully formed ) 的 类 对 象 打交道 ， 那 么 
重新 定义 _init_0 会 很 有 用 。 在 最 后 那个 示例 中 我 们 必须 重新 定义 _init_0。 因 为 这 
里 用 到 了 super0 函 数 来 查找 父 类 中 的 定义 ， 而 这 只 有 当 类 实例 已 经 被 创建 出 来 旦 方法 
解析 顺序 ( MRO ) 已 经 设 定之 后 才 行 得 通 。 

最 后 那个 示例 也 展示 了 对 Python 函数 签名 对 象 的 使 用 。 从 本 质 上 说 ， 元 类 首先 获取 类 
中 的 每 一 个 可 调用 型 的 定义 ( 函数 、 方 法 等 )， 然 后 查找 它们 是 否 在 基 类 中 也 有 一 个 定 
义 ， 如 果 有 的 话 就 通过 inspectsignature0 来 比较 它们 的 调用 签名 是 否 一 致 。 

最 后 但 同样 重要 的 是 ，super(self, self) 这 行 代码 并 不 存在 输入 错误 。 当 使 用 元 类 时 ， 很 
重要 的 一 点 是 要 意识 到 self 实际 上 是 一 个 类 对 象 。 因 此 ， 这 行 代码 实际 上 是 用 来 寻找 
位 于 类 层次 结构 中 更 高 层次 上 的 定义 ， 它 们 组 成 了 self 的 父 类 。 























类 来 控制 类 的 定义 会 十 分 有 用 。 元 类 可 
ZWA 


元 
能 视 的 潜在 问题 ( 比如 使 用 了 不 潮 
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9.18 通过 编程 的 方式 来 定义 类 


9.18.1 问题 
我 们 编写 的 代码 最 终 需 要 创建 一 个 新 的 类 对 象 。 我 们 想到 将 组 成 类 定义 的 源 代 码 发 送 
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到 一 个 字符 串 中 , 然后 利用 类 似 exec0 这 样 的 函数 来 执行 , 但 是 我 们 希望 能 有 一 个 更 加 
优雅 的 解决 方案 。 


9.18.2 ”解决 方案 

我 们 可 以 使 用 函数 types.new_class0 来 实例 化 新 的 类 对 象 。 所 有 要 做 的 就 是 提供 类 的 
名 称 、 父 类 名 组 成 的 元 组 、 关 键 字 参 数 以 及 一 个 用 来 产生 类 字典 (class dictionary ) 的 
回调 ， 类 字典 中 包含 着 类 的 成 员 。 示 例如 下 : 


# stock.py 
# Example of making a class manually from parts 























# Methods 

def init (self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


def cost (self): 
return self.shares * self.price 


cls dict = { 


n anit oe, anes y 





Tost" : cost, 


# Make a class 
import types 


Stock = types.new_class('Stock', (), {}, lambda ns: ns.update(cls_dict) ) 


Stock. module = _name 


这 么 做 会 产生 一 个 普通 的 类 对 象 ， 和 所 期 望 的 结果 一 样 : 


>>> s = Stock('ACME', 50, 91.1) 

>>> s 

<stock.Stock object at 0x1006a9b10> 
>>> s.cost () 

4555.0 

>>> 





在 调用 完 types.new_class0 之 后 对 Stock. module “的 赋值 操作 是 这 个 解决 方案 中 的 微 
妙 之 处 。 每 当 定 义 一 个 类 时 ,其 _module “属性 中 包含 的 名 称 就 是 定义 该 类 时 所 在 的 
模块 名 。 这 个 名 称 会 用 来 为 ”repr 0 这 样 的 方法 产生 输出 ， 同 时 也 会 被 各 种 库 所 用 ， 

比如 pickle。 因 此 ， 为 了 让 创建 的 类 成 为 一 个 “正常 ”的 类 ， 需 要 保证 将 ”module _ 
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属性 设置 妥当 。 
如 果 想 创建 的 类 还 涉及 一 个 不 同 的 元 类 ， 可 以 在 types.new_class0 的 第 三 个 参数 中 进行 
间 定 。 示 例如 下 : 


>>> import abc 





>>> Stock = types.new_class('Stock', (), {'metaclass': abc.ABCMeta}, 
lambda ns: ns.update(cls_dict)) 


>>> Stock. module = _ name 
>>> Stock 

<class ' main .Stock'> 

>>> type (Stock) 

<class 'abc.ABCMeta'> 

>>> 


第 三 个 参数 中 还 可 以 包含 其 他 的 关键 字 参 数 。 例 如 ， 下 面 这 个 类 定义 : 


class Spam(Base, debug=True, typecheck=False) : 





转换 成 new_class0) 调 用 后 是 这 样 的 : 


Spam = types.new_class('Spam', (Base,), 








"debug': True, 'typecheck': False}, 
lambda ns: ns.update(cls_dict) ) 


new_class() 的 第 四 个 参数 是 最 为 神秘 的 。 但 它 实 际 上 是 一 个 接受 映射 型 对 象 的 函数 , 用 
来 产生 类 的 命名 空间 。 这 通常 都 会 是 一 个 字典 ， 但 实际 上 可 以 是 任何 由 _ prepare 0 
方法 ( 见 9.14 节 ) 返回 的 对 象 。 这 个 函数 应 该 使 用 update() 方 法 或 者 其 他 的 映射 操作 为 
命名 空间 中 添加 新 的 条 目 。 


9.18.3 ”讨论 


能 够 制造 出 新 的 类 对 象 在 某 些 特定 的 上 下 文中 会 很 有 用 。 其 中 一 个 我 们 比较 熟悉 的 例 
子 和 collections.namedtuple() KAA. ANH : 


>>> Stock = collections.namedtuple('Stock', ['name', 'shares', 'price']) 
























































>>> Stock 
<class ' main .Stock'> 
>>> 








和 我 们 本 节 展 示 的 技术 不 同 ，namedtuple0 使 用 了 exec0。 但 是 ， 下 面 这 个 简单 的 函数 
可 直接 创建 出 类 : 


import operator 





import types 
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import sys 


def named_tuple(classname, fieldnames): 
# Populate a dictionary of field property accessors 
cls_dict = { name: property (operator.itemgetter (n) ) 
for n, name in enumerate(fieldnames) } 
# Make a _new_ function and add to the class dict 
def new (cls, *args): 
if len(args) != len(fieldnames) : 
raise TypeError('Expected {} arguments'. format (len (fieldnames) ) ) 
return tuple. new (cls, args) 


cls dict[' new '] = new 


# Make the class 
cls = types.new_class(classname, (tuple,), {}, 
lambda ns: ns.update(cls_dict) ) 


# Set the module to that of the caller 
cls. module = sys._getframe(1).f_globals['_name_'] 
return cls 


上 述 代码 的 最 后 部 分 利用 了 所 谓 的 “frame hack” 技 巧 ， 通 过 sys. getframe(0) 来 获取 调 
用 者 所 在 的 模块 名 称 。 有 关 frame hack 的 男 一 个 例子 可 在 2.15 节 中 找到 。 


下 面 的 示例 展示 了 上 述 代码 是 如 何 工 作 的 : 


>>> Point = named_tuple('Point', ['x', 'y']) 





>>> Point 

<class ' main .Point'> 

>>> p = Point (4, 5) 

>>> len (p) 

2 

>>> p.x 

4 

>>> p.y 

5 

>>> p.x = 2 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 

>>> print ('%s %s' % p) 

45 

>>> 


本 节 使 用 的 技术 中 一 个 重要 的 方面 在 于 对 元 类 提供 了 适当 文 持 。 我 们 可 能 会 倾向 于 通 
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过 直接 实例 化 一 个 元 类 来 创建 类 。 示 例如 下 : 

Stock = type('Stock', (), cls_dict) 
这 种 方法 的 问题 在 于 它 忽略 了 某 些 重要 的 步 邓 ,比如 调用 元 类 的 ”prepare 0 方法 。 通 
过 采用 types.new_class0 ， 可 以 保证 所 有 必要 的 初始 化 步 又 都 能 得 到 执行 。 例 如 ， 在 
types.new_class() 中 给 定 的 第 四 个 参数 是 一 个 回调 函数 ， 它 所 接受 的 映射 型 对 象 正 是 由 
__ prepare 0 方法 返回 的 。 
如 果 只 想 执 行 准备 步骤 ， 可 以 使 用 types.prepare_class0。 示 例如 下 : 


import types 








metaclass, kwargs, ns = types.prepare class('Stock', (), {'metaclass': type} 
这 么 做 会 找到 合适 的 元 类 并 调用 它 的 _prepare_() 方 法 。 元 类 、 剩 下 的 关键 字 参 数 以 及 
准备 好 的 命名 空间 都 会 得 到 返回 。 
要 获得 更 多 信息 ， 请 参考 PEP 3115 (http://www.python.org/dev/peps/pep-3115 ) 以 及 
Python 的 相关 文档 ( http://docs.python.org/3/reference/datamodel.html%23metaclasses )。 











919 在 定义 的 时 候 初 始 化 类 成 员 


9.19.1 问题 
我 们 想 在 定义 类 的 时 候 对 部 分 成 员 进 行 初 始 化 ， 而 不 是 在 创建 类 实例 的 时 候 完 成 。 


9.19.2 解决 方案 


在 定义 类 的 时 候 执行 初始 化 或 者 配置 操作 是 元 类 的 经 典 用 途 。 从 本 质 上 说 ， 元 类 是 在 
定义 类 的 时 候 触发 执行 ， 此 时 可 以 执行 额外 的 步骤 。 


下 面 的 示例 采用 这 种 思想 创建 了 一 个 类 似 于 collections 模块 中 命名 元 组 的 类 : 


import operator 















































class StructTupleMeta (type): 
def _init (cls, *args, **kwargs): 
super(). init (*args, **kwargs) 
for n, name in enumerate(cls. fields): 


setattr (cls, name, property (operator.itemgetter (n) )) 


class StructTuple(tuple, metaclass=StructTupleMeta) : 
_fields = [] 
def _new_(cls, *args): 
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if len(args) != len(cls._ fields): 
raise ValueError('{} arguments required'.format (len(cls. fields) ) 
return super(). new (cls,args) 


上 述 代 码 允 许 我 们 定义 简单 的 基于 元 组 的 数据 结构 ， 示 例如 下 : 


class Stock(StructTuple): 
_fields = ['name', 'shares', 'price'] 


class Point (StructTuple): 
_fields = ['x', 'y'] 


可 以 看 看 如 何 使 用 它们 : 


>>> s = Stock('ACME', 50, 91.1) 

>>> s 

(‘ACME', 50, 91.1) 

>>> s[0] 

' ACME ' 

>>> s.name 

' ACME ' 

>>> s.shares * s.price 

4555.0 

>>> s.shares = 23 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 

>>> 


9.19.3 讨论 
本 节 中 ， 类 StructTupleMeta 接受 类 属性 fields 中 的 属性 名 称 ， 并 将 它们 转换 为 属性 方 
法 ,使 得 这 些 方 法 能 够 访问 到 元 组 的 某 个 特定 槽 位 。 孙 数 operatoritemgetterO 创 建 了 一 
个 访问 器 函数 (accessor function )， 而 函数 property0 将 其 转换 成 一 个 property 属性 。 
本 节 中 最 为 棘手 的 部 分 在 于 如 何 知 道 不 同 的 初始 化 步骤 在 什么 时 候 发 生 。StructTupleMeta 
中 的 _init _0 方 法 针对 每 个 定义 的 类 只 会 调用 一 次 。 参 数 cls 代表 着 所 定义 的 类 。 从 本 
质 上 说 ， 我 们 给 出 的 代码 利用 类 变量 fields 来 接受 新 定义 的 类 ， 然 后 为 其 添加 一 些 新 
的 部 分 。 
类 StructTuple 作为 公共 基 类 让 用 户 从 它 继承 。 类 中 的 _new ”0 方法 负责 产生 新 的 实例 。 
这 里 对 new 0 的 使 用 有 些 不 同 寻常 ， 部 分 原因 在 于 我 们 修改 了 元 组 的 调用 签名 ， 这 
使 得 现在 的 调用 约定 看 起 来 就 和 普通 的 调用 方式 一 致 了 : 

s = Stock('ACME', 50, 91.1) # OK 

s = Stock(('ACME', 50, 91.1)) # Error 
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Mint OAT, — new 0 方法 会 在 类 实例 创建 出 来 之 前 得 到 触发 。 由 于 元 组 是 不 可 
变 对 象 (immutable ), 一 旦 它们 被 创建 出 来 就 无 法 再 做 任何 修改 了 。 因 此 ， init 0 
方法 在 类 实例 创建 的 过 程 中 触发 的 时 机 太 晚 ， 以 至 于 没 法 按 我 们 想 要 的 方式 修改 实例 。 
这 就 是 为 什么 我 们 要 定义 ”new 0 的 原因 。 

尽管 本 节 的 内 容 比 较 短 小 ， 但 通过 仔细 地 学 习 和 研究 后 ， 读 者 对 于 Python 类 的 定义 、 
类 实例 的 创建 过 程 以 及 元 类 和 类 中 不 同 的 特殊 方法 将 在 何 时 得 到 调用 有 着 深刻 的 理 
解 ， 这 是 大 有 益处 的 。 
PEP 422 (http://www.python.org/dev/peps/pep-0422 ) 中 还 提供 了 一 种 可 选 的 替代 方案 来 
完成 本 节 中 描述 的 任务 。 但 是 ， 在 写作 本 书 时 ， 这 份 PEP 还 没有 得 到 采纳 和 接受 。 尽 
管 如 此 ， 如 果 你 使 用 的 Python 版 本 要 高 于 3.3 的 话 还 是 值得 去 看 一 看 的 。 



















































































9.20 ”通过 范 数 注解 来 实现 方法 重 载 


9.20.1 问题 

我 们 已 经 学 习 过 函数 参数 注解 方面 的 知识 ， 而 我 们 想 利 用 这 种 技术 通过 基于 参数 类 型 
的 方式 来 实现 多 分 派 ( multiple-dispatch， 或 称 为 方法 重 载 )。 但 是 并 不 清楚 这 其 中 要 
及 哪些 技术 ， 甚 至 对 于 这 么 做 是 否 为 一 个 好 主意 还 存 有 疑虑 。 


9.20.2 ”解决 方案 






















































































本 节 的 思想 基于 一 个 简单 的 事实 一 一 即 ， 由 于 Python 允许 对 参数 进行 注解 ， 那 么 如 果 
可 以 像 下 面 这 样 编写 代码 就 好 了 : 
class Spam: 


def bar(self, x:int, y:int): 
print ('Bar 1:', x, y) 





def bar(self, s:str, n:int = 0): 


print ('Bar 2:', s, n) 
s = Spam() 
s.bar(2, 3) # Prints Bar 1: 2 3 
s.bar('hello') # Prints Bar 2: hello 0 

















下 面 的 解决 方案 正 是 应 对 于 此 ， 我 们 使 用 了 元 类 以 及 描述 符 来 实现 : 


# multiple.py 


import inspect 
import types 
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class MultiMethod: 


per 


Represents a single multimethod. 


mr 


def 


def 


def 


_init (self, name): 


self. methods = {} 


self. name = name 


register(self, meth): 


ver 


Register a new method as a multimethod 


oer 


sig = inspect.signature (meth) 


# Build a type signature from the method's annotations 
types = [] 
for name, parm in sig.parameters.items(): 
if name == 'self': 
continue 
if parm.annotation is inspect.Parameter.empty: 
raise TypeError ( 
"Argument {} must be annotated with a type'. format (name) 
) 
if not isinstance(parm.annotation, type): 
raise TypeError ( 


"Argument {} annotation must be a type'.format (name) 


) 
if parm.default is not inspect.Parameter.empty: 
self. _methods[tuple(types)] = meth 


types.append (parm. annotation) 


self. _methods[tuple(types)] = meth 


_call_ (self, *args): 


ore 


Call a method based on type signature of the arguments 
rrr 
types = tuple (type (arg) for arg in args[1:]) 
meth = self. methods.get (types, None) 
if meth: 
return meth (*args) 
else: 
raise TypeError('No matching method for types {}'.format (types) ) 
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def get (self, instance, cls): 


mre 


Descriptor method needed to make calls work in a class 
rri 
if instance is not None: 
return types.MethodType (self, instance) 
else: 
return self 


class MultiDict (dict): 


rr 


Special dictionary to build multimethods in a metaclass 
ree 
def _setitem_(self, key, value): 
if key in self: 
# If key already exists, it must be a multimethod or callable 
current_value = self[key] 
if isinstance (current value, MultiMethod) : 
current_value.register (value) 
else: 
mvalue = MultiMethod (key) 
mvalue.register (current_value) 
mvalue.register (value) 
super(). setitem (key, mvalue) 
else: 
super(). setitem (key, value) 


class MultipleMeta (type): 


meer 


Metaclass that allows multiple dispatch of methods 
pee 
def new (cls, clsname, bases, clsdict): 
return type. new (cls, clsname, bases, dict (clsdict) ) 


@classmethod 
def prepare (cls, clsname, bases): 
return MultiDict () 








要 使 用 这 个 类 ， 可 以 像 这 样 编写 代码 : 


class Spam(metaclass=MultipleMeta) : 











def bar(self, x:int, y:int): 
print ('Bar 1:', x, y) 

def bar(self, s:str, n:int = 0): 
print ('Bar 2:', s, n) 
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# Example: overloaded _init 
import time 
class Date (metaclass=MultipleMeta) : 
def init__(self, year: int, month:int, day:int): 
self.year = year 
self.month = month 
self.day = day 


def init (self): 
t = time.localtime() 
self. in 让 (t.tm year, t.tm mon, t.tm_mday) 


下 面 的 交互 式 会 话 可 验证 我 们 的 代码 是 否 能 按 预期 工作 : 


>>> s = Spam() 








>>> s.bar (2, 3) 
Bar 1: 2 3 
>>> s.bar('hello') 


S 

Bar 2: hello 0 
>>> s.bar('hello', 5) 
Bar 2: hello 5 
>>> s.bar(2, 'hello') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "multiple.py", line 42, in _call_ 
raise TypeError('No matching method for types {}'.format (types) ) 


TypeError: No matching method for types (<class 'int'>, <class 'str'>) 


>>> # Overloaded _ init _ 
>>> d = Date(2012, 12, 21) 
>>> # Get today's date 
>>> e = Date() 

>>> e.year 

2012 

>>> e.month 

12 

>>> e.day 

3 

>>> 


9.20.3 讨论 


老实 说 ， 本 节 中 出 现 了 大 量 的 “魔法 ” 才 使 得 这 个 方案 能 适用 于 现实 环境 中 的 代码 。 
但 是 ， 这 个 方案 深入 挖掘 了 元 类 和 描述 符 的 内 部 工作 原理 ， 并 强化 了 其 中 的 一 些 概念 。 
因此 ， 就 算 可 能 不 会 直接 应 用 本 方 中 的 方案 , 但 其 中 的 一 些 思想 可 能 会 影响 到 其 他 涉 
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及 元 类 、 摘 述 符 和 函数 注解 方面 的 编程 技术 。 


相对 来 说 ， 上 述 实 现 中 的 主要 思想 是 比较 简单 的 。 元 类 MutipleMeta 使 用 _prepare 0 
方法 来 提供 一 个 定制 化 的 类 字典 ， 将 其 作为 MultiDict 的 一 个 类 实例 。 与 普通 的 字典 不 
同 ， 当 设 定 字 典 中 的 条 目 时 ，MultiDict 会 检查 条 目 是 否 已 经 存在 。 如 果 已 经 存在 ， 则 
重复 的 条 目 会 被 合并 到 MultiMethod 的 一 个 类 实例 中 去 。 


MultiMethod 的 类 实例 会 通过 构建 一 个 从 类 型 签名 到 函数 的 映射 关系 来 将 方法 收集 到 
一 起 。 在 构建 的 时 候 ， 我 们 通过 函数 注解 来 收集 这 些 签 名 并 构建 出 映射 关系 。 这 些 都 
是 在 MultiMethod.register() 方 法 中 完成 的 。 关 于 这 个 上 映射， 一 个 至 关 重 要 的 地 方 在 于 为 
了 实现 多 方法 重 载 ， 因 此 必须 给 所 有 的 参数 都 指定 类 型 ， 否 则 就 会 出 错 。 

为 了 让 MultiMethod 的 类 实例 能 够 表现 为 一 个 可 调用 对 象 ， 我 们 实现 了 _ call 0 方法 。 
该 方法 通过 所 有 的 参数 ( 除了 self 之 外 ) 构建 出 一 个 类 型 元 组 ， 然 后 在 内 部 的 映射 关 
系 中 找到 对 应 的 方法 并 调用 它 。 实现 get 0 方法 是 为 了 计 MultiMethod 的 类 实例 能 够 
在 类 定义 中 正常 工作 。 在 我 们 给 出 的 实现 中 ， ”get 0 方法 被 用 来 创建 合适 的 绑 定 方法 。 
示例 如 下 : 


>>> b = s.bar 
>>> b 


































































































<bound method Spam.bar of < main .Spam object at 0x1006a46d0>> 
>>> b. self _ 

<_main_.Spam object at 0x1006a46d0> 

>>> b._ func__ 

<_main_.MultiMethod object at 0x1006a4d50> 

>>> b(2, 3) 

Bar dt: 2-3 

>>> b('hello') 

Bar 2: hello 0 

>>> 





诚然 ， 本 节 中 虽然 涉及 多 项 编程 技术 ,但 不 幸 的 是 我 们 还 需要 考虑 一 下 其 中 存在 的 局 
限 性 。 第 一 ， 这 个 解决 方案 中 不 能 使 用 关键 字 参 数 。 示 例如 下 : 


>>> s.bar(x=2, y=3) 




















Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: _call_() got an unexpected keyword argument 'y' 


>>> s.bar(s='hello') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: _call_() got an unexpected keyword argument 's' 
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也 许可 以 通过 某 种 方式 增加 对 关键 字 参 数 的 支持 ， 但 这 就 需要 一 种 完全 不 同 的 方法 来 














实现 方法 映射 了 。 问 题 的 根源 在 于 关键 字 参 数 不 是 以 某 种 特定 顺序 出 现 的 。 当 和 位 置 


参数 混在 一 起 时 ， 我 们 很 快 会 得 到 
方法 中 以 某 种 方式 进行 整理 。 














I 一 堆 杂 乱 排 列 的 参数 ， 人 迫使 我 们 不 得 不 在 call_0 


本 节 给 出 的 方案 对 于 继承 的 支持 也 非常 有 限 。 例 如 ， 下 面 的 代码 是 无 法 工作 的 : 


class A: 
pass 


class B(A): 
pass 


class C: 
pass 


class Spam(metaclass=MultipleMet 
def foo(self, x:A): 
print ('Foo 1:', x) 


def foo(self, x:C): 
print ('Foo 2:', x) 





a): 


失败 的 原因 在 于 注解 x:A 无 法 匹配 到 子 类 的 实例 上 ( 比如 B 的 实例 ) 示例 如 下 : 


= Spam() 
= A() 
.foo (a) 


S 
a 
S 

Foo 1: <_main_.A object at 0x1006a5310> 
C 
S 
2 


>>> = C() 
>>> s.foo(c) 
Foo 2: <_main_.C object at 0x1007a1910> 


>>> b = B() 
>>> s.foo(b) 
Traceback (most recent call last 


File "<stdin>", line 1, in <mo 





File "multiple.py", line 44, i 

raise TypeError('No matching 

TypeError: No matching method fo 
>>> 


Na 

dule> 

n _call 

method for types {}'.format (types) ) 
r types (<class '_main_.B'>,) 


除了 使 用 元 类 和 函数 注解 之 外 ， 还 可 以 通过 装饰 器 来 实现 类 似 的 功能 。 示 例如 下 : 


import types 


class multimethod: 
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def init (self, func): 


self. methods = {} 
name 


= func. 





self. name 
self. default = func 


match(self, *types): 
def register (func): 
len (func. defaults) if func 


ndefaults 
for n in range (ndefaults+1): 


self. methods[types[:len(types) - n]] 


def 


= func 


return self 
return register 

def call (self, *args): 
tuple (type (arg) for arg in args[1:]) 


types 
meth = self._methods.get (types, None) 


if meth: 
return meth (*args) 


else: 
return self. default (*args) 


_get_ (self, instance, cls): 


def 
if instance is not None: 
return types.MethodType(self, instance) 


else: 
return self 


要 使 用 装饰 器 的 版 本 ， 可 以 像 这 样 编写 代码 : 

















class Spam: 
@multimethod 


def bar(self, *args): 
# Default method called if no match 


raise TypeError('No matching method for bar') 


@bar.match(int, int) 


def bar(self, x, y): 
print ('Bar 1:', x, y) 


@bar.match(str, int) 


def bar(self, s, n = 0): 
print ('Bar 2:', s, n) 


Ae FAB i it EY PERT FR AAT TET IS RA a] Je BPE CB, 不 支持 关键 


对 继承 的 支持 不 佳 )。 


_ defaults else 0 
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如 果 不 出 什么 意外 ， 最 好 还 是 不 要 在 通用 的 代码 中 使 用 多 分 派 。 在 一 些 特殊 情况 下 这 
或 许 会 是 有 意义 的 ， 比 如 某 个 程序 需要 根据 某 种 形式 的 模式 匹配 来 分 派 不 同 的 方法 。 





例如 , 在 8.21 节 中 描述 过 的 访问 者 模式 也 许可 以 改写 到 一 个 类 中 ， 通 过 某 种 方式 来 使 
用 多 方法 分 派 。 但 是 除 此 之 外 ， 选 择 更 加 简单 的 方案 通常 都 绝 不 会 是 个 坏 主意 〈 不 同 
的 方法 使 用 不 同 的 名 称 即 可 )。 















































考虑 通过 不 同 的 方式 来 实现 多 分 派 的 思想 已 经 在 Python 用 户 社区 中 存在 多 年 了 。 对 于 
这 个 主题 的 讨论 ， 请 参见 Python 之 父 Guido van Rossum 发 表 的 一 篇 博文 “Five-Minute 
Multimethods in Python”( http://www.artima.com/weblogs/viewpost.jsp?thread=101605 )。 





9.21 


避免 出 现 重 复 的 属性 方法 


9.21.1 问题 
我 们 正在 编写 一 个 类 ， 而 我 们 不 得 不 重复 定义 一 些 执行 了 相同 任务 的 属性 方法 ， 比 如 





























说 做 类 








型 检查 。 我 们 想 简 化 代码 ， 解 决 代码 重复 的 问题 。 


9.21.2 ”解决 方案 
考虑 下 面 这 个 简单 的 类 ， 这 里 的 属性 都 用 property 方法 进行 了 包装 : 


class Person: 











def init (self, name ,age): 
self.name = name 


self.age = age 


@property 
def name(self): 
return self. name 


@name.setter 
def name(self, value): 
if not isinstance(value, str): 
raise TypeError('name must be a string') 


self. name = value 


@property 
def age(self): 
return self. age 


@age.setter 
def age(self, value): 
if not isinstance(value, int): 
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raise TypeError('age must be an int') 


Self. age = value 
可 以 看 到 ， 我 们 编写 的 很 多 代码 仅仅 只 是 强制 对 属性 值 做 类 型 断言 。 每 当 看 到 自己 的 
代码 变 成 这 个 样子 时 ， 应 该 考虑 通过 各 种 不 同 的 方法 来 简化 代码 。 一 种 可 能 的 方式 就 
是 创建 一 个 函数 ， 让 它 为 我 们 定义 这 个 属性 并 返回 给 我 们 。 示 例如 下 : 


def typed property (name, expected type): 




































































storage_name = ' ' + name 


@property 
def prop(self): 
return getattr(self, storage_name) 


@prop.setter 
def prop(self, value): 
if not isinstance(value, expected_type) : 
raise TypeError('{} must be a {}'.format (name, expected_type) ) 
setattr(self, storage_name, value) 


return prop 


# Example use 
class Person: 
name = typed_property('name', str) 
age = typed_property('age', int) 
def init__(self, name, age): 
self.name = name 


self.age = age 


9.21.3 讨论 

本 节 说 明了 内 层 函 数 或 者 闭 包 的 一 个 重要 特性 一 即 ， 用 它们 编写 出 的 代码 工作 起 来 
很 像 宏 。 示 例 中 的 函数 typed_property0 可 能 看 起 来 有 点 怪 ， 但 它 实 际 上 只 是 在 为 我 们 
生成 属性 代码 ， 并 返回 产生 的 属性 对 象 。 因 此 ， 当 在 类 中 使 用 它 时 就 好 像 把 出 现在 
typed_property0 中 的 代码 放置 到 了 类 定义 中 一 样 。 尽 管 getter 和 setter 属性 方法 访问 的 
是 局 部 变量 ， 比 如 name, expected type 和 storage name， 这 也 没 问 题 一 一 那些 值 都 保 
存在 闭 包 中 了 。 


如 果 使 用 函数 functools.partial0) ， 还 可 以 让 本 节 中 的 示例 变 得 更 加 有 趣 。 例 如 ， 可 以 这 
么 做 : 


from functools import partial 




































































String = partial (typed_property, expected_type=str) 
Integer = partial(typed_property, expected_type=int) 
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# Example: 
class Person: 
name = String('name') 
age = Integer ('age') 
def init__(self, name, age): 
self.name = name 


self.age = age 


这 份 代码 看 起 来 就 很 像 我 们 在 8.13 节 中 展示 的 一 些 类 型 系统 描述 符 的 代码 了 。 

















9.22 ”以 简单 的 方式 定义 上 下 文 管理 器 


9.22.1 问题 
我 们 想 实现 新 形式 的 上 下 文 管理 器 ， 然 后 在 with 语句 中 使 用 。 


9.22.2 ”解决 方案 

写 一 个 新 的 上 下 文 管理 器 ， 其 中 最 直接 的 一 种 方式 就 是 使 用 contextlib 模块 中 的 
@contextmanager 装饰 髓 。 在 下 面 的 示例 中 ， 我 们 用 上 下 文 管理 器 来 计时 代码 块 的 执 
行 时 间 : 














SE 




















import time 


from contextlib import contextmanager 


@contextmanager 
def timethis (label): 
start = time.time() 
try: 
yield 
finally: 
end = time.time() 
print ('{}: {}'.format (label, end - start) ) 


# Example use 
with timethis('counting'): 


n = 10000000 
while n > 0: 
ness 


在 timethis0 函 数 中 ， 所 有 位 于 yield 之 前 的 代码 会 作为 上 下 文 管理 需 的 _enter 0 方法 
来 执行 。 而 所 有 位 于 yield 之 后 的 代码 会 作为 “exit 0 方法 执行 。 如果 有 异常 产生 ， 则 
会 在 yield 语句 中 抛 出 。 
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下 面 是 一 个 更 加 高 级 的 上 下 文 管理 器 ， 其 中 实现 了 对 列表 对 象 的 处 理 : 


@contextmanager 





def list_transaction(orig_list) : 
working = list (orig list) 
yield working 
orig list[:] = working 


这 里 采用 的 思路 就 是 只 有 当 整 个 代码 块 执行 结束 且 没 有 产生 任何 异常 时 ， 此 时 对 列表 
做 出 的 修改 才 会 真正 生效 。 下 面 用 一 个 例子 来 说 明 : 


>>> items = [1, 2, 3] 




















>>> with list transaction (items) as working: 
working. append (4) 
working. append (5) 


>>> items 

[1, 2, 3, 4, 5] 

>>> with list_transaction(items) as working: 
working. append (6) 
working. append (7) 
raise RuntimeError('oops') 


Traceback (most recent call last): 
File "<stdin>", line 4, in <module> 

RuntimeError: oops 

>>> items 

[1, 2, 3, 4, 5] 

>>> 


9.22.3 讨论 
一 般 来 说 , Bag E FLEA, 需要 定义 一 个 带 有 ”enter (0 和 ”exit 0 方法 的 
类 ， 就 像 下 面 这 样 : 


import time 


























class timethis: 

def init (self, label): 
self.label = label 

def enter (self): 
self.start = time.time() 

def exit (self, exc_ty, exc val, exc tb): 
end = time.time() 
print('{}: {}'.format (self.label, end - self.start) ) 
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虽然 这 么 做 也 并 非 很 难 , 但 是 比 起 直接 使 用 @ 





@contextmanager 只 适用 于 编写 自给 自足 型 ( self-contained ) 的 上 下 文 管理 


果 有 一 些 对 象 ( 比如 文件 、 网 络 连接 或 者 锁 ) 
需要 分 别 实现 enter 0 和 exit 0 方法 。 











EZ 


器 函数 。 如 
需要 支持 在 with 语句 中 使 用 ， 那 么 还 是 


contextmanager Ae MN 








9.23 ”执行 带 有 局 部 副作用 的 代码 


9.23.1 


问题 


我 们 正在 使 用 exec0 在 调用 方 的 作用 域 下 执行 一 段 代码 , 但 是 当 执行 结束 后 , 得 到 的 




















果 似 乎 在 当前 作用 域 下 是 不 可 见 的 。 


9.23.2 ”解决 方案 


为 了 更 好 地 到 
行 一 段 代码 : 


>>> a = 13 





>>> exec('b = a + 1') 
>>> print (b) 
14 


>>> 














+ 
2H 





E 解 这 个 问题 ， 我 们 做 一 个 小 小 的 实验 。 首 先 ， 我们 在 全 局 命名 空间 下 执 





现在 ， 让 我 们 在 一 个 函数 内 部 再 次 做 同样 的 实验 : 


>>> def test () : 

a=13 

exec('b = a + 1') 

print (b) 
>>> test () 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "<stdin>", line 4, in test 
NameError: global name 'b' is not defined 
>>> 


可 以 看 到 , 我 们 遇 到 了 NameError 异常 ， 就 好 像 exec0 语 句 从 未 实际 执行 过 一 样 。 如 
在 稍 后 的 计算 中 ， 那 么 这 就 成 了 问题 。 





+ F 
结果 














打算 将 execO 的 执行 结果 月 
要 解决 这 类 问题 ， 需 要 使 用 locals0 函 数 在 调 月 





四 
IN 











字典 。 紧 接着 ， 就 可 以 从 本 地 字典 中 提取 出 修 


>>> def test(): 


H exec0 之 前 获取 一 个 保存 了 局 部 变量 的 
改过 的 值 。 示 例如 下 : 
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a= 13 
loc = locals () 


exec('b =a + 1') 


b = loc['b'] 
print (b) 

>>> test () 

14 

>>> 


9.23.3 ”讨论 

在 实践 中 要 正确 使 用 exec0 其 实 是 非常 具有 技巧 性 的 。 事实 上 , 在 大 多 数 考虑 使 用 exec) 
的 情况 中 ， 可 能 存在 着 更 加 优雅 的 解决 方案 ( 例如 装饰 器 、 闭 包 、 元 类 等 )。 

但 是 如 果 仍 然 必 须 使 用 exec0， 本 节 列 出 了 一 些 正确 使 用 它 的 原则 。 默 认 情 况 下 ，exec0) 
是 在 调用 方 的 局 部 和 全 局 作用 域 中 执行 代码 的 。 然 而 在 函数 内 部 , 传递 给 execO 的 局 部 
作用 域 是 一 个 字典 ,而 这 个 字典 是 实际 局 部 变量 的 一 份 拷 贝 。 因 此 ， 如 果 在 exec0 中 执 
行 的 代码 对 局 部 变量 做 出 了 任何 修改 ， 这 个 修改 绝 不 会 反映 到 实际 的 局 部 变量 中 去 。 
下 面 我 们 用 另 一 个 例子 来 演示 这 个 效果 : 


>>> def testl(): 










































































x = 0 
exec('x += 1') 
print (x) 


>>> testl() 
0 


正如 解决 方案 中 展示 的 那样 ， 当 调用 locals0 来 获取 局 部 变量 时 ， 传 递 给 exec0 的 是 局 
部 变量 的 拷贝 。 而 在 exec0 执 行 完毕 之 后 , 通过 检查 字典 中 的 值 ， 就 能 获取 到 修改 过 的 
变量 值 。 下 面 的 实验 可 验证 这 一 点 : 


>>> def test2(): 

















x=0 
loc = locals () 
print ('before:', loc) 
exec('x += 1') 
print ('after:', loc) 





print ('x =', x) 


>>> test2() 
before: {'x': 0} 
after? {loele yash LR 
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仔细 观察 最 后 一 步 的 输出 。 除 非 从 loc 中 将 修改 过 的 值 写 回 x， 和 否则 变量 x 会 保持 


不 变 。 


每 当 使 用 locals0 时 都 需要 小 心 操作 的 顺序 问题 。 每 次 调用 它 时 ，locals0 将 会 接受 局 部 














变量 的 当前 值 ， 然 后 覆盖 字典 中 的 对 应 条 目 。 观 察 下 面 这 个 实验 的 结果 : 
>>> def test3(): 
x = 0 


loc = locals () 
print (loc) 
exec('x += 1') 


print (loc) 
locals () 
print (loc) 
>>> test3() 
eae Garten 


(Loe! aih TK 1} 
A Kolo U ech EK 0} 
>>> 




















注意 最 后 对 locals0 的 调用 是 如 何 导致 x 被 覆盖 的 。 


除了 使 用 locals0 之 外 ， 另 一 种 可 选 的 方式 是 自己 创建 字典 并 传递 给 exec()。 示 例 
如 下 : 


>>> def test4(): 




















a= 13 
Loess fe tat sar >} 
glb = { } 
exec('b = a + 1', glb, loc) 
b = loc['b'] 
print (b) 
>>> test4() 
14 
>>> 

















对 于 大 部 分 针对 exec0 的 应 用 ， 这 可 能 就 是 优秀 的 实践 方式 了 。 我 们 需要 确保 exec0 中 
访问 的 变量 在 全 局 和 局 部 字典 中 经 过 恰当 的 初始 化 。 

最 后 但 同样 重要 的 是 , 在 使 用 exec0 之 前 , 应 该 问 问 自己 是 否 还 有 其 他 可 选 的 方案 。 许 
多 可 能 会 考虑 使 用 exec0 的 问题 都 可 以 用 闭 包 、 装 饰 顺 、 元 类 或 者 其 他 元 编程 的 特性 来 
IX. 




















T 
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9.24 解析 并 分 析 Python 源 代码 


9.24.1 问题 

我 们 想 编写 程序 来 解析 Python 源 代码 并 对 此 进行 一 些 分 析 工 作 。 

9.24.2 ”解决 方案 

大 部 分 程序 员 都 知道 Python 可 以 执行 以 字符 串 形式 提供 的 源 代码 。 示 例如 下 : 


>>> x = 42 




















>>> eval('2 + 3*4 + x') 
56 


>>> exec('for i in range(10): print (i)') 


Oo ODI DO FF WHY HF OC 


v 
Vv 
v 











但 是 ， 我 们 可 以 使 用 ast 模块 将 Python 源 代码 编译 为 一 个 抽象 语法 树 ( AST )， 这 样 就 
可 以 分 析 源 代码 了 。 示 例如 下 : 


>>> import ast 














>>> ex = ast.parse('2 + 3*4 + x', mode='eval') 

>>> ex 

<_ast.Expression object at 0x1007473d0> 

>>> ast.dump (ex) 

"Expression (body=BinOp (left=BinOp (left=Num(n=2), op=Add(), 
right=BinOp (left=Num(n=3), op=Mult(), right=Num(n=4))), op=Add(), 
right=Name(id='x', ctx=Load())))" 


>>> top = ast.parse('for i in range(10): print(i)', mode='exec') 
>>> top 

<_ast.Module object at 0x100747390> 

>>> ast.dump (top) 

"Module (body=[For (target=Name (id='i', ctx=Store()), 
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对 语法 树 的 分 析 需 要 读者 自己 做 一 些 研究 ， 
成 的 。 同 这 些 节 


iter=Call (func=Name (id='range', ctx=Load()), args=[Num(n=10)], 


keywords=[], starargs=None, kwargs=None), 


body=[Expr (value=Call (func=Name (id='print', ctx=Load()), 


args=[Name(id='i', ctx=Load())], keywords=[], starargs=None, 


kwargs=None))], orelse=[])])" 


>>> 


























但 总 的 来 说 ， 语 法 树 是 由 一 些 AST 
点 打交道 的 最 简单 的 方式 就 是 定义 一 个 访问 者 类 ， 在 类 中 实现 各 种 


PAH 


visit Node Named es 这 里 的 NodeName 可 以 匹配 到 所 感 兴趣 的 节点 上 来 。 下 面 的 示 


例 给 


给 出 了 





这 样 一 个 类 ， 它 可 以 记录 那些 被 加 载 、 保 存 和 删除 过 的 名 称 信 息 。 





import ast 


class CodeAnalyzer(ast.NodeVisitor): 


def _init (self): 
self.loaded = set () 
self.stored = set() 
self.deleted = set () 
def visit Name(self, node): 
if isinstance(node.ctx, ast.Load): 
self.loaded.add(node.id) 
elif isinstance(node.ctx, ast.Store): 
self.stored.add(node.id) 
elif isinstance(node.ctx, ast.Del): 
self .deleted.add (node. id) 


# Sample usage 


if 


for 


del 


name == ' main ': 





# Some Python code 


code = '''! 

i in range(10): 
print (i) 

i 


# Parse into an AST 


top = ast.parse(code, mode='exec') 


# Feed the AST to analyze name usage 
= CodeAnalyzer () 

c.visit (top) 

print ('Loaded:', c.loaded) 

print ('Stored:', c.stored) 

print ('Deleted:', c.deleted) 
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如 果 运 行 这 个 程序 ， 会 得 到 如 下 的 输出 : 


Loaded: {'i', 'range', 'print'} 
Stored: {'i'} 
Deleted: {'i'} 


最 后 ，AST 节点 可 以 通过 compileO 函 数 进行 编译 并 执行 。 示 例如 下 : 


>>> exec (compile (top, '<stdin>', 'exec')) 


wo Ost nD oO A U NBEO 


v 
v 
v 


9.24.3 ”讨论 

由 于 可 以 分 析 源 代码 并 从 中 得 到 有 用 的 信息 ， 这 一 事实 可 以 让 我 们 开始 编写 各 种 各 样 
的 代码 分 析 、 代 码 优化 或 者 验证 工具 。 例 如 ,与 其 盲目 地 将 一 些 代码 片段 传递 给 exec) 
这 样 的 函数 ， 不 如 先 将 代码 转换 为 一 棵 AST 树 ， 然 后 检查 其 中 的 一 些 细节 来 看 看 代码 
要 完成 哪些 任务 。 也 可 以 编写 工具 来 检查 模块 的 整 份 源码 ， 并 在 此 之 上 进行 一 些 静 态 
分 析 fo} 

应 该 要 提 到 的 是 , 如 果 确 实 知道 自己 要 做 什么 , 那么 也 可 以 重 写 AST 来 表示 新 的 源码 。 
下 面 给 出 了 一 个 装饰 器 的 示例 ， 可 以 降低 函数 体 中 可 被 全 局 访问 的 名 称 的 数量 。 这 是 
通过 重新 解析 函数 体 的 源码 并 重 写 AST， 然 后 再 重新 创建 函数 的 源码 对 象 来 实现 的 。 


# namelower.py 










































































import ast 


import inspect 


# Node visitor that lowers globally accessed names into 
# the function body as local variables. 
class NameLower (ast .NodeVisitor): 

def init (self, lowered_names): 


self.lowered_names = lowered_names 


def visit FunctionDef (self, node): 
# Compile some assignments to lower the constants 
code = '_ globals = globals()\n' 
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code += '\n'.join("{0} = _globals['{0}']". format (name) 
for name in self.lowered_names) 


code_ast = ast.parse(code, mode='exec') 


# Inject new statements into the function body 
node.body[:0] = code_ast.body 


# Save the function object 
self.func = node 


# Decorator that turns global names into locals 
def lower names (*namelist): 
def lower (func): 
srclines = inspect.getsource (func) .splitlines () 
# Skip source lines prior to the @lower_names decorator 
for n, line in enumerate(srclines) : 
if '@lower_names' in line: 
break 


src = '\n'.join(srclines[nt1l:]) 

# Hack to deal with indented code 

if src.startswith((' ','\t')): 
src = ‘if 1:\n' + sre 

top = ast.parse(src, mode='exec') 


# Transform the AST 
cl = NameLower (namelist) 
cl.visit (top) 


# Execute the modified AST 
temp = {} 
exec (compile (top, '','exec'), temp, temp) 


# Pull out the modified code object 
func. code = temp [func. name ]. code 
return func 


return lower 


要 使 用 上 述 代码 ， 可 以 编写 如 下 形式 的 代码 : 


INCR = 1 


@lower names ('INCR') 
def countdown (n) : 
while n > 0: 
n -= INCR 
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这 样 ， 我 们 的 装饰 器 就 会 将 函数 countdown0) 的 源码 改写 为 如 下 的 形式 : 


def countdown (n) : 
_ globals = globals() 
INCR = _ globals['INCR"'] 
while n > 0: 
n -= INCR 


在 性 能 测试 中 ， 这 使 得 该 函数 的 运行 速度 快 了 大 约 20% 

现在 ， 是 否 应 该 将 这 个 装饰 器 作用 到 所 有 的 函数 上 呢 ? 很 可 能 不 是 如 此 。 但 是 ， 这 个 
例子 对 一 些 非常 高 级 的 技术 做 了 很 好 的 说 明 。 我 们 可 以 通过 操纵 AST、 源 代码 以 及 其 
他 一 些 技术 来 实现 这 些 高 级 特性 。 

本 节 的 灵感 源 自 ActiveState 上 一 个 类 似 的 例子 (http://code.activestate.com/recipes/277940- 
decorator-for-bindingconstants-at-compile-time/ )， 在 那个 例子 中 我 们 操纵 了 Python 的 字 
节 码 。 用 AST 来 实现 则 是 一 种 层次 更 高 的 方法 ， 可 能 会 更 直接 一 些 。 有 关 字 节 码 方面 
的 更 多 内 容 可 参考 下 一 节 。 



































9.25 将 Python 源码 分 解 为 字 节 码 


9.25.1 问题 
我 们 想 将 Python 源码 分 解 为 解释 器 所 使 用 的 底层 字 节 码 ， 以 此 了 解 代码 在 底层 的 详 
细 细 节 。 


9.25.2 ”解决 方案 
dis 模块 可 用 来 将 任何 Python 函数 分 解 为 字 节 码 序列 。 示 例如 下 : 


>>> def countdown (n): 
while n > 0: 





print ('T-minus', n) 
n-= 1 
print ('Blastoff!') 


>>> import dis 
>>> dis.dis (countdown) 


2 0 SETUP_LOOP 39 (to 42) 
>> 3 LOAD FAST 0 (n) 
6 LOAD_CONST 1 (0) 
9 COMPARE OP 4 (>) 
12 POP_JUMP IF FALSE 41 
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3 15 LOAD GLOBAL 0 (print) 
18 LOAD CONST 2 ('T-minus') 
21 LOAD_FAST 0 (n) 
24 CALL FUNCTION 2 (2 positional, 0 keyword pair) 
27 POP_TOP 
4 28 LOAD FAST 0 (n) 
31 LOAD_CONST 3 (1) 
34 INPLACE_SUBTRACT 
35 STORE_FAST 0 (n) 
38 JUMP_ABSOLUTE 3 
>> 41 POP_BLOCK 
5 >> 42 LOAD GLOBAL 0 (print) 
45 LOAD_CONST 4 ('Blastoff!') 
48 CALL FUNCTION 1 (1 positional, 0 keyword pair) 
51 POP_TOP 0 (None) 
52 LOAD_CONST 
55 RETURN_VALUE 





>>> 


9.25.3 ”讨论 


如 果 需 要 在 非常 底层 的 层次 下 研究 程序 的 行为 , ABA dis 模块 会 非常 有 帮助 ( 例如， 如 
果 打 算 了 解 一 些 性 能 方面 的 特点 时 )。 


由 函数 dis0 所 翻译 出 的 原始 字 节 码 序列 是 这 样 的 : 


>>> countdown. code .co code 

b"x'\x00|\x00\x00d\x01\x00k\x04\x00r) \x00t\x00\x00d\x02\x00|\x00\x00\x83 
\x02\x00\x01 | \x00\x00d\x03\x008}\x00\x00q\x03\x00Wt \x00\x00d\x04\x00\x83 
\x01\x00\x01d\x00\x00S" 

>>> 














如 果 想 自行 解释 这 段 代码 ， 需 要 使 用 定义 在 opcode 模块 中 的 一 些 常 量 。 示 例如 下 : 


>>> c = countdown. code .co code 
>>> import opcode 

>>> opcode.opname[c[0]] 

>>> opcode.opname[c[0] ] 
"SETUP_LOOP' 

>>> opcode.opname[c[3]] 

"LOAD FAST! 

>>> 





讽刺 的 是 ，dis 模块 中 居然 没有 任何 函数 能 够 让 我 们 以 可 编程 的 方式 来 轻松 处 理 这 些 字 
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节 码 。 下 面 这 个 生成 器 函数 会 接受 原始 的 字 节 码 序列 ， 并 将 其 转换 为 对 应 的 操作 代码 
和 参数 。 


import opcode 


def generate opcodes (codebytes): 
extended arg = 0 
i=0 
n = len(codebytes) 
while i < n: 
op = codebytes [i] 
i += 1 
if op >= opcode.HAVE ARGUMENT: 
oparg = codebytes[i] + codebytes[it1]*256 + extended arg 
extended arg = 0 
i += 2 
if op == opcode.EXTENDED ARG: 
extended_arg = oparg * 65536 
continue 
else: 
oparg = None 
yield (op, oparg) 


要 使 用 这 个 函数 ， 可 以 像 这 样 操作 : 


>>> for op, oparg in generate_opcodes (countdown. code .co code): 
print (op, opcode.opname[op], oparg) 


20 SETUP_LOOP 39 
24 LOAD FAST 0 
00 LOAD CONST 1 
07 COMPARE OP 4 
14 POP_JUMP_IF_ FALSE 41 


16 LOAD GLOBAL 0 
00 LOAD CONST 2 
24 LOAD FAST 0 











00 LOAD CONST 3 

56 INPLACE SUBTRACT None 
25 STORE FAST 0 

13 JUMP_ABSOLUTE 3 

87 POP_BLOCK None 

16 LOAD GLOBAL 0 

00 LOAD CONST 4 
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131 CALL_FUNCTION 1 
1 POP_TOP None 

100 LOAD CONST 0 

83 RETURN_VALUE None 


>>> 





下 面 介绍 一 个 鲜 为 人 知 的 小 技巧 ,我 们 可 以 将 任何 函数 中 感 兴趣 的 原始 字 节 码 替 换 掉 。 
这 需要 多 做 一 些 工作 才能 实现 ， 下 面 给 出 的 示例 展示 了 其 中 需要 涉及 的 技巧 : 


>>> def add(x, y): 











return x + y 


>>> c = add. code | 

>>> c 

<code object add at 0x1007beed0, file "<stdin>", line 1> 

>>> c.co_code 

b'|\x00\x00|\x01\x00\x17S' 

>>> 

>>> # Make a completely new code object with bogus byte code 

>>> import types 

>>> newbytecode = b'xxxxxxx' 

>>> nc = types.CodeType(c.co_argcount, c.co_kwonlyargcount, 
c.co_nlocals, c.co_stacksize, c.co_flags, newbytecode, c.co_consts, 
c.co_names, c.co_varnames, c.co_filename, c.co_name, 


c.co firstlineno, c.co lnotab) 


>>> nc 

<code object add at 0x10069fe40, file "<stdin>", line 1> 
>>> add. code = nc 

>>> add(2,3) 


Segmentation fault 


使 用 这 么 花哨 的 技巧 是 很 有 可 能 将 解释 器 弄 崩溃 的 。 但 是 ， 对 于 那些 需要 做 高 级 优化 和 
开发 元 编程 工具 的 开发 者 来 说 ， 他 们 可 能 会 真 地 倾向 于 去 重新 改写 字 节 码 。 本 节 最 后 这 
个 例子 展示 了 如 何 去 做 。 读 者 可 以 在 ActiveState 上 看 到 另 一 个 实际 应 用 中 的 例子 


( http://code.activestate.com/recipes/277940-decorator-for-buildingconstants-at-cimpile- time ). 
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第 10 章 


模块 和 包 





模块 和 包 是 任何 大 型 项 目的 核心 ， 就 连 Python 安装 程序 本 身 也 是 一 个 包 。 本 章 的 重点 
涉及 有 关 模 块 和 包 的 常见 编程 技术 ， 例 如 如 何 组 织 包 、 将 大 型 的 模块 分 解 成 多 个 文件 
以 及 创建 命名 空间 包 (namespace package )。 此 外 ,本章 也 提 到 了 关于 自 定义 import i 
句 行为 的 操作 。 



































10.1 把 模块 按 层次 结构 组 织 成 包 
10.1.1 问题 
我 们 想 把 代码 按照 一 定 的 层次 结构 组 织 成 包 。 


10.1.2 ”解决 方案 


创建 一 个 软件 包 结 构 是 很 简单 的 。 只 要 把 代码 按照 所 希望 的 方式 在 文件 系统 上 进行 组 
织 ， 并 确保 每 个 目录 中 都 定义 了 一 个 init__.py 文件 即 可 。 例 如 : 


graphics/ 








_init .py 

primitive/ 
_init .py 
line.py 
fill.py 
text.py 

formats/ 
_ init__.py 
png.py 
jpg. py 
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一 旦 完成 后 ， 就 可 以 执行 各 种 各 样 的 import 语句 了 ， 比 如: 


import graphics.primitive.line 





from graphics.primitive import line 
import graphics.formats.jpg as jpg 


10.1.3 讨论 

定义 一 个 具有 层次 结构 的 模块 就 如 同 在 文件 系统 上 创建 目录 结构 一 样 简单 。 init__.py 
文件 的 目的 就 是 包含 可 选 的 初始 化 代码 ， 当 遇 到 软件 包 中 不 同 层次 的 模块 时 会 触发 运 
行 。 比 如 ， 如 果 写 下 import graphics WAJ, XF graphics/_init_.py 会 被 导 人 并 形成 
graphics 命名 空间 中 的 内 容 。 对 于 import graphics.formats jpg 这 样 的 导入 语句 ,文件 graphic/_ 
init__.py 和 graphics/formats/_init_.py 都 会 在 最 终 导 和 文件 graphics/formats/jpg.py 之 
前 优先 得 到 导入 。 

在 大 部 分 情况 下 ， 把 _init_.py 文件 留 空 也 是 可 以 的 。 但 是 ， 在 某 些 特定 的 情况 下 
init py 文件 中 是 需要 包含 代码 的 。 例 如 ， 可 以 用 _init_.py 文件 来 自动 加 载 子 模块 ， 

示例 如 下 : 


# graphics/formats/_init .py 























from . import jpg 
from . import png 


有 了 这 样 一 个 文件 ,用 户 只 需要 使 用 一 条 单独 的 import graphics.formats 语句 就 可 以 导入 jpg 
和 png 模块 了 ， 不 需要 再 去 分 别 导 入 graphics.formats.jpg 和 graphics.formats.png。 


RKF init__.py 文件 的 常见 用 法 包括 从 多 个 文件 中 把 定义 统一 到 一 个 单独 的 逻 
辑 命名 空间 中 , 这 有 时 候 会 在 分 解 模块 时 用 到 。 我 们 在 10.4 节 中 会 讨论 分 解 模 块 的 
问题 。 

一 些 精 明 的 程序 员 会 注意 到 在 Python 3.3 中 就 算 不 存在 _init_.py 文 件 似乎 也 可 以 执行 
包 的 导入 操作 。 如 果 不 定 义 _init _ .py， 那么 实际 上 是 创建 了 一 个 称 之 为 “命名 空间 包 ” 
(namespace package ) 的 东西 ， 我 们 会 在 10.5 节 讨 论 这 个 主题 。 如 果 刚 开始 创建 一 个 新 
的 包 ， 那 么 做 法 都 是 一 样 的 ， 包 括 _ii py 文件 也 是 一 样 。 


















































10.2 ”对 所 有 符号 的 导入 进行 精确 控制 


10.2.1 问题 


当 用 户 使 用 from module import * 语 名 时， 我 们 希望 对 从 模块 或 包 中 导入 的 符号 进行 精 
确 控制 。 
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10.2.2 解决 方案 
在 模块 中 定义 一 个 变量 _all ， 用 来 显 式 列 出 可 导出 的 符号 名 。 示 例如 下 : 
# somemodule.py 


def spam(): 
pass 


def grok(): 
pass 


blah = 42 


# Only export 'spam' and 'grok' 
_all_ = ["spam', 'grok'] 


10.2.3 讨论 

尽管 我 们 强烈 反对 使 用 from module import * 这 样 的 导入 语句 ， 但 是 在 定义 了 大 量 符号 
的 模块 中 还 是 能 常 看 到 这 种 用 法 。 如 果 对 此 无 动 于 衷 的 话 ， 这 种 形式 的 导入 会 把 所 有 
以 下 划 线 开头 的 符号 名 全 部 导出 。 换 句 话 说， 如果 定 义 了 _all ， 那 么 只 有 显 式 列 
出 的 符号 名 才 会 被 导出 。 

如 果 将 ”all 定义 成 一 个 空 的 列表 ， 那 么 任何 符号 都 不 会 被 导出 。 如 果 _all Pas 
有 未 定义 的 名 称 ， 那 么 在 执行 import 语句 时 会 产生 一 个 AttributeError 异常 。 






































> 























10.3 ”用 相对 名 称 来 导入 包 中 的 子 模块 


10.3.1 问题 


我 们 将 代码 组 织 成 了 一 个 包 ， 想 从 其 中 一 个 子 模块 中 导入 男 一 个 子 模块 ,但 是 又 不 希 
望 在 import 语句 中 人 硬 编码 包 的 名 称 。 


10.3.2 ”解决 方案 
要 在 软件 包 的 子 模块 中 导入 同一 个 包 中 其 他 的 子 模块 ， 请 使 用 相对 名 称 来 导入 。 例 如 ， 
假设 有 一 个 名 为 mypackage 的 包 ， 它 在 文件 系统 上 组 织 成 如 下 的 形式 : 


mypackage/ 








_init .py 

A/ 
_init .py 
spam.py 
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grok.py 
B/ 
init -spy 
bar.py 
如 果 模 块 mypackage.A.spam 希望 导入 位 于 同一 个 目录 中 的 模块 grok， 那 么 它 应 该 包含 
一 条 这 样 的 import 语句 : 


# mypackage/A/spam.py 





from . import grok 


如 果 模 块 mypackage.A.spam 希望 导入 位 于 不 同 目录 中 的 模块 B.bar， 可 以 使 用 下 面 的 
import 语句 来 完成 : 


# mypackage/A/spam.py 





from ..B import bar 
上 面 这 两 条 import 语句 都 是 相对 于 spam.py 文件 的 位 置 来 进行 操作 的 ， 而 且 其 中 没有 
包含 最 项 层 包 的 名 称 。 
10.3.3 ”讨论 


在 包 的 内 部 ， 要 在 其 中 一 个 子 模块 中 导入 同一 个 包 中 其 他 的 子 模块 ， 既 可 以 通过 给 出 
完整 的 绝对 名 称 ， 也 可 以 通过 上 面 示例 中 采用 的 相对 名 称 来 完成 导入 。 示 例如 下 : 


# mypackage/A/spam.py 























from mypackage.A import grok # OK 
from . import grok # OK 
import grok # Error (not found) 


使 用 绝对 名 称 的 缺点 在 于 这 么 做 会 将 最 顶层 的 包 名 称 硬 编码 到 源 代码 中 ， 这 使 得 代码 
更 加 脆弱 ， 如 果 想 重新 组 织 一 下 结构 会 比较 困难 。 例 如 ， 如 果 修改 了 包 的 名 称 ， 将 不 
得 不 搜索 所 有 的 源 代 码 文件 并 修改 硬 编 码 的 名 称 。 类 似 地 ， 硬 编码 名 称 使 得 其 他 人 很 
难 移动 这 部 分 代码 。 例 如 ， 也 许 有 人 想 安 装 两 个 不 同 版 本 的 包 ， 只 通过 名 字 来 区 分 它 
们 。 如 果 采 用 相对 名 称 导 入 ， 那 么 不 会 有 任何 问题 ， 但 是 采用 绝对 名 称 导 和 人 则 会 使 程 
FR RE 

import 语句 中 的 .和 .. 语 法 可 能 看 起 来 比较 有 趣 , 把 它们 想象 成 指定 目录 名 即 可 。 .意味 着 
在 当前 目录 中 查找 , 而 ..B 表示 在 ../B 目录 中 查找 。 这 种 语法 只 能 用 在 from xx import yy 
这 样 的 导入 语句 中 。 示 例如 下 : 


from . import grok # OK 
import .grok # ERROR 
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尽管 看 起 来 似乎 可 以 利用 相对 导入 来 访问 整个 文件 系统 ， 但 实际 上 是 不 允许 跳出 定义 
包 的 那个 目录 的 。 也 就 是 说 ， 利 用 句点 的 组 合 形式 进入 一 个 不 是 Python 包 的 目录 会 使 
得 导入 出 现 错误 。 

最 后 ， 应 该 要 提 到 的 是 相对 导入 只 在 特定 的 条 件 下 才 起 作用 ， 即 ， 模 块 必须 位 于 一 
个 合适 的 包 中 才 可 以 。 特别 是 , 位 于 脚本 顶层 目录 的 模块 不 能 使 用 相对 导 和 人 。 此 外 ， 
如 果 包 的 某 个 部 分 是 直接 以 脚本 的 形式 执行 的 ， 这 种 情况 下 也 不 能 使 用 相对 导入 。 
例如 : 


% python3 mypackage/A/spam.py # Relative imports fail 


男 一 方面 ， 如 果 使 用 -m 选项 来 执行 上 面 的 脚本 ,那么 相对 导入 就 可 以 正常 工作 了 。 示 
例如 下 : 


% python3 -m mypackage.A.spam # Relative imports work 




















x 

















有 关 包 的 相对 导入 的 更 多 背景 知识 ， 请 参阅 PEP 328 (http://www.python.org/dev/peps/ 
pep-0328 )。 


10.4 将 模块 分 解 成 多 个 文件 


10.4.1 问题 

我 们 想 将 一 个 模块 分 解 成 多 个 文件 。 但 是 ， 我 们 不 想 破坏 现在 已 经 在 使 用 这 个 模块 的 
代码 ， 而 是 希望 可 以 将 多 个 单独 的 文件 在 逻辑 上 统一 成 一 个 单独 的 模块 。 

10.4.2 解决 方案 


可 以 通过 将 模块 转换 为 包 的 方式 将 模块 分 解 成 多 个 单独 的 文件 。 考 虑 下 面 这 个 简单 的 
模块 : 


# mymodule.py 























class A: 
def spam(self): 
print ('A.spam') 


class B(A): 
def bar(self): 
print ('B.bar') 


假设 想 将 mymodule.py 分 解 为 两 个 文件 ， 每 个 文件 中 包含 一 个 类 的 定义 。 要 做 到 这 点 ， 可 
以 从 把 mymodule.py 替换 成 目录 mymodule 开始 。 在 这 个 新 的 目录 中 创建 如 下 的 文件 : 
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mymodule/ 














_init .py 
a.py 
b.py 
在 文件 wpy 中 填 入 下 面 的 代码 : 
# a.py 
class A: 


def spam(self): 
print ('A.spam') 


而 在 文件 b.py 中 填 入 下 面 的 代码 : 
# b.py 
from .a import A 
class B(A): 
def bar(self): 


print ('B.bar') 


最 后 在 文件 _init_.py 中 将 这 两 个 文件 绑 定 在 一 起 : 


# init__.py 





from .a import A 
from .b import B 





如 果 遵 循 以 上 的 步骤 ， 那 么 现在 mypackage 包 在 逻辑 上 就 成 为 了 一 个 单独 的 模块 ; 


>>> import mymodule 
>>> a = mymodule.A() 


>>> a.spam() 


A.spam 

>>> b = mymodule.B() 
>>> b.bar() 

B.bar 


>>> 


10.4.3 ”讨论 





本 节 主 要 考虑 的 是 一 个 设计 上 的 问题 。 即 ， 我 们 和 希望 用 户 使 用 大 量 的 小 型 模块 ， 还 是 



































和 希望 他 们 只 使 用 一 个 单独 的 模块 。 例 如 ， 在 一 个 庞大 的 代码 库 中 ,我 们 可 以 把 所 有 的 
东西 都 分 解 成 单独 的 文件 ， 并 让 用 户 写 下 大 量 的 import 语句 ， 就 像 下 面 这 样 : 
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from mymodule.a import A 
from mymodule.b import B 





这 么 做 行 得 通 ， 但 是 也 给 用 户 带 来 了 很 大 的 负担 ， 因 为 他 们 需要 知道 不 同 的 组 件 都 存 











放 在 哪个 文件 中 。 通 常 ， 更 加 简单 的 方式 是 将 事情 统 














语句 即 可 : 


from mymodule import A, B 











起 来 ， 只 用 





条 单独 的 import 




















对 于 这 后 一 种 情况 ,通常 可 以 把 mymodule 想象 成 一 个 大 型 的 源 文件 。 但 是 ,本 节 为 才 
家 演示 了 如 何在 逻辑 上 把 多 个 文件 拼接 成 一 个 单独 的 命名 空间 的 技术 。 关 键 之 处 在 于 
创建 一 个 包 目 录 ， 并 通过 zi _ .py 文件 将 各 个 部 分 粘 合 在 一 起 。 























当 分 解 模块 时 ， 需 要 对 跨 文 件 名 的 引用 多 加 小 心 。 例 如 ， 在 本 节 示 例 中 ， 





class B 需要 


把 class A 当做 基 类 来 访问 。 我 们 采用 from .a import A 这 种 相对 于 包 的 导入 方式 来 获取 





class A 的 定义 。 


本 节 全 篇 都 在 使 用 相对 于 包 的 导入 方式 ， 避 免 在 源 代码 中 硬 编码 顶层 模块 名 。 这 么 做 
使 得 修改 模块 名 或 者 将 模块 代码 移动 到 别处 都 变 得 更 加 容易 了 ( 参见 10.3 节 )。 

可 以 对 本 节 提 到 的 技术 进行 扩展 ， 引 入 “惰性 ”导入 的 概念 。 由 前 面 的 示例 可 知 ， 
init _.py 文件 一 次 性 将 所 有 需要 的 组 件 都 导入 进来 。 但 是 , 对 于 非常 庞大 的 模块 也 





文件 做 了 些微 修改 : 


# init .py 


def A(): 
from .a import A 
return A() 


def B(): 
from .b import B 
return B() 


在 这 个 版 本 中 ，class A Fil class B GAH RAE 


类 。 对 于 用 户 来 说 这 不 会 有 太 大 差别 。 示 例如 下 : 


>>> import mymodule 
>>> a = mymodule.A() 
>>> a.spam() 


A.spam 


许 只 希望 在 实际 需要 的 时 候 才 加 载 那 些 组 件 。 为 了 实现 这 个 目的 ， 下 面 对 _init .py 


， 当 首次 访问 它们 时 会 加 载 所 需 的 
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惰性 加 载 的 主要 缺点 在 于 会 破坏 继承 和 类 型 检查 机 制 。 例 如 ， 我 们 可 能 需要 稍微 修改 
一 下 代码 : 


if isinstance(x, mymodule.A): # Error 


if isinstance(x, mymodule.a.A): # Ok 





有 关 惰 性 加 载 在 真实 世界 中 的 应 用 , 可 以 参考 标准 库 中 multiprocessing/ init__.py 中 的 
源 代码 。 


m 


10.5 ”让 各 个 目录 下 的 代码 在 统一 的 命名 空间 下 
LN 


10.5.1 问题 

我 们 有 一 个 庞大 的 代码 库 ， 其 中 有 很 多 部 分 可 能 是 由 不 同 的 人 来 维护 和 发 布 的 。 每 个 
部 分 都 组 织 成 一 个 目录 ， 就 像 包 一 样 。 但 是 ,与 其 把 每 个 部 分 都 安装 为 单独 命名 的 包 ， 
我 们 更 想 把 所 有 的 部 分 联合 在 一 起 ， 用 一 个 统一 的 前 缀 来 命名 。 


10.5.2 ”解决 方案 

基本 上 来 说 ， 这 里 的 问题 就 是 我 们 想 定义 一 个 顶层 的 Python 包 ， 把 它 作为 命名 空间 来 
管理 大 量 单独 维护 的 子 模块 。 这 个 问题 常常 会 在 大 型 的 应 用 程序 框架 中 出 现 ， 框 架 开 
发 人 员 希 望 鼓励 用 户 发 布 自己 的 插件 或 者 附加 的 包 。 

要 使 各 个 单独 的 目录 统一 在 一 个 公共 的 命名 空间 下 ， 可 以 把 代码 像 普通 的 Python LIB 
样 进 行 组 织 。 但 是 对 于 打算 合并 在 一 起 的 组 件 , ZEA SEA AY init .py 文件 则 需要 忽 
略 。 为 了 说 明 这 个 过 程 ， 假 设 Python 代码 位 于 两 个 不 同 的 目录 中 : 


foo-package/ 







































































spam/ 
blah.py 


bar-package/ 
spam/ 
grok.py 


在 这 两 个 目录 中 ，spam 用 来 作为 公共 的 命名 空间 。 注 意 到 这 两 个 目录 中 都 没有 出 现 
__ init__.py 文件 。 
现在 如 果 将 foo-package 和 bar-package 都 添加 到 Python 的 模块 查询 路 径 中 ， 然 后 尝试 
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做 一 些 导 入 操作 ， 看 看 会 发 生 什么 : 


>>> import sys 

>>> sys.path.extend(['foo-package', 'bar-package']) 
>>> import spam.blah 

>>> import spam.grok 

>>> 


将 会 注意 到 这 两 个 不 同 的 包 目 录 魔 法 般 地 合并 在 了 一 起 ， 我 们 可 以 随意 导入 spam.blah 
或 者 spam.grok， 不 会 遇 到 任何 问题 。 


10.5.3 ”讨论 

这 里 的 工作 原理 用 到 了 一 种 称 之 为 “命名 空间 包 ”( namespace package ) 的 特性 。 基 本 
上 来 说 ， 命 名 空间 包 是 一 种 特殊 的 包 ， 设 计 这 种 特性 的 意图 就 是 用 来 合并 不 同 目 录 下 
的 代码 ， 把 它们 放 在 统一 的 命名 空间 之 下 进行 管理 ， 就 像 示 例 中 展示 的 那样 。 对 于 大 
型 的 框架 而 言 ， 这 种 特性 是 很 有 帮助 的 。 因 为 这 样 允 许 把 框架 的 某 些 部 分 分 解 成 单独 
安装 的 包 。 这 样 也 使 得 人 们 可 以 轻松 地 制作 第 三 方 插件 和 针对 框架 的 其 他 扩展 。 
创建 命名 空间 包 的 关键 之 处 在 于 确保 在 统一 命名 空间 的 顶层 目录 中 不 包含 _init .py 
文件 。 当 导入 包 的 时 候 , 这 个 缺失 的 _init py 文件 会 导致 发 生 一 些 有 趣 的 事情 。 解释 
器 并 不 会 因此 而 产生 一 个 错误 ， 相 反 ， 解 释 器 开始 创建 一 个 列表 ， 把 所 有 恰好 包含 有 
这 个 包 名 的 目录 都 尘 括 在 内 。 此 时 就 创建 出 了 一 个 特殊 的 命名 空间 包 模 块 ， 且 在 
path ”变量 中 会 保存 一 份 只 读 形式 的 目录 列表 。 示 例如 下 : 


>>> import spam 


















































>>> spam. path 

_NamespacePath(['foo-package/spam', 'bar-package/spam']) 
_ path 变量 中 保存 的 目录 可 用 来 进一步 定位 包 中 的 子 模块 (例如 ， 当 导入 spam.grok 
或 者 spam.blah 时 )。 
命名 空间 包 的 一 个 重要 特性 就 是 任何 人 都 可 以 用 自己 的 代码 来 扩展 命名 空间 中 的 内 
容 。 例 如 ， 假 设 在 自己 的 目录 下 添加 了 代码 : 


my-package/ 

















Spam/ 
custom. py 
如 果 把 自己 的 代码 目录 和 其 他 的 包 一 起 添加 到 sys.path 中 ， 那 么 就 可 以 无 颖 地 同 其 他 的 
spam 包 合 并 在 一 起 : 


>>> import spam.custom 
>>> import spam.grok 
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>>> import spam.blah 
>>> 


作为 一 种 调试 工具 ， 想 知道 某 个 包 是 不 是 用 来 当做 命名 空间 包 的 主要 方式 就 是 检查 它 
HJ file 属性。 如果 缺少 这 个 属性 ， 这 个 包 就 是 命名 空间 。 这 也 可 以 从 包 对 象 的 字符 
串 表示 中 看 出 来 ， 如 果 是 命名 空间 的 话 ， 其 中 会 有 “namespace” 的 字样 。 示 例如 下 : 


>>> spam. file _ 























Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'module' object has no attribute ' file _' 
>>> spam 
<module 'spam' (namespace) > 
>>> 


有 关 命 名 空间 包 的 更 多 信息 , 可 以 在 PEP 420( http://www.python.org/dev/peps/pep-0420 ) 
中 找到 。 


10.6 ”重新 加 载 模 块 


10.6.1 问题 
因为 对 模块 的 源 代码 做 了 修改 ,我 们 想 重新 加 载 一 个 已 经 加 载 过 了 的 模块 。 


10.6.2 ”解决 方案 
要 重新 加 载 一 个 之 前 已 加 载 过 的 模块 ， 可 以 使 用 impxreload0) 来 实现 。 示 例如 下 : 


>>> import spam 














>>> import imp 

>>> imp.reload (spam) 

<module 'spam' from './spam.py'> 
>>> 


10.6.3 讨论 

在 开发 和 调试 阶段 ， 重 新 加 载 模块 这 一 招 常常 很 有 用 。 但 是 一 般 来 说 在 生产 环境 中 这 
么 做 是 不 安全 的 ， 因 为 它 并 不 会 总 是 按照 期 望 的 方式 工作 。 
reload() 操 作 会 擦 除 模块 底层 字典 (dict) 的 内 容 ， 并 通过 重新 执行 模块 的 源 代码 来 
刷新 它 。 模 块 对 象 本 身 的 标识 并 不 会 改变 ( 即 ， 调 用 id0 的 结果 )。 因 此 ， 这 个 操作 会 
使 得 已 经 导入 到 程序 中 的 模块 得 到 更 新 。 

但 是 ， 对 于 使 用 了 from module import name 这 样 的 语句 导入 的 定义 ，reload0 是 不 会 去 
更 新 的 。 为 了 说 明 其 中 的 过 程 ， 考 虑 下 面 的 代码 : 
























































模块 和 包 415 


# spam.py 


def bar(): 
print ('bar') 


def grok(): 
print ('grok') 


现在 开启 一 个 新 的 交互 式 会 话 : 


>>> import spam 





>>> from spam import grok 
>>> spam.bar () 

bar 

>>> grok () 

grok 

>>> 


不 要 退出 Python， 现 在 去 编辑 spam.py 的 源 代码 ， 把 grokO AUER F IK : 


def grok(): 
print ('New grok') 


现在 返回 交互 式 会 话 执行 reload() 操 作 ， 并 做 以 下 的 试验 : 


>>> import imp 

>>> imp.reload (spam) 

<module 'spam' from './spam.py'> 
>>> spam.bar () 


bar 

>>> grok () # Notice old output 
grok 

>>> spam.grok () # Notice new output 
New grok 


>>> 


在 这 个 例子 中 , 将 会 发 现 有 两 个 版 本 的 grokO 函 数 都 被 加 载 进 来 了 。 一般 来 说 这 不 会 是 
































我 们 期 望 的 结果 ， 而 且 最 终 会 变 成 让 我 们 头疼 的 垩 梦 。 














在 生产 环境 的 代码 中 应 该 要 避免 重新 加 载 模块 。 但 是 在 调试 或 者 在 交 


会 话 中 ， 当 需要 尝试 一 些 新 想法 时 这 人 么 做 也 未 尝 不 可 。 


10.7 让 目录 或 zip 文件 成 为 可 运行 的 脚本 


10.7.1 问题 





我 们 的 程序 已 经 从 一 个 简单 的 脚本 进化 为 一 个 涉及 多 个 文件 


的 应 用 。 我 们 和 希望 能 有 某 
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种 简单 的 方法 让 用 户 来 运行 这 个 程序 。 


10.7.2 ”解决 方案 
如 果 应 用 程序 已 经 进化 为 由 多 个 文件 组 成 的 “庞然大物 ”， 则 可 以 把 它们 放 在 专属 的 目 
录 中 ， 并 为 之 添加 一 个 _main_.py 文件 。 例 如 ， 可 以 创建 一 个 这 样 的 目录 : 


myapplication/ 
spam.py 
bar.py 


grok.py 
_main .py 


WRA main .py， 就 可 以 在 顶层 目录 中 运行 Python 解释 器 ， 就 像 下 面 这 样 : 
bash % python3 myapplication 

EREE main .py 文件 作为 主 程序 来 执行 。 

这 项 技术 在 我 们 把 所 有 的 代码 打包 进 一 个 zip 文件 中 时 同样 有 效 。 示 例如 下 : 


bash % ls 
spam.py bar.py grok.py _main .py 
bash % zip -r myapp.zip *.py 























bash % python3 myapp.zip 
<. output from _main_.py ... 


10.7.3 ”讨论 

创建 一 个 目录 或 zip 文件 ， 并 在 其 中 添加 一 个 _main .py， 这 是 一 种 打包 规模 较 大 的 
Python 应 用 程序 的 可 行 方法 。 但 这 和 安装 到 Python 标准 库 中 的 包 有 所 不 同 ， 在 这 种 情 
况 下 ， 代 码 并 不 是 作为 标准 库 中 的 模块 来 使 用 的 。 相 反 ， 这 里 只 是 把 代码 打包 起 来 方 
便 给 其 他 人 执行 。 

由 于 目录 和 zip 文件 同 普通 文件 相 比 有 一 些小 的 区 别 ， 我 们 可 能 也 想 添 加 一 个 shell HYD 
林 来 让 执行 步骤 变 得 更 加 简单 。 例 如 ， 如 果 代码 位 于 一 个 名 为 wapp zip 的 文件 中 ， 则 
可 以 像 下 面 这 样 创建 一 个 顶层 的 脚本 : 


#!/usr/bin/env python3 /usr/local/bin/myapp.zip 
10.8 读 取 包 中 的 数据 文件 


10.8.1 问题 
我 们 的 代码 需要 读 取 包 中 的 一 个 数据 文件 ， 我 们 要 尽 可 能 的 以 可 移植 的 方式 来 处 理 。 
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10.8.2 ”解决 方案 
假设 包 是 按照 下 列 方式 组 织 的 : 


mypackage/ 

















_init .py 
somedata.dat 


spam.py 
现在 假设 文件 spam.py 要 读 取 somedata.dat 中 的 内 容 。 要 做 到 这 点 ,可 以 使 用 下 列 代码 
来 完成 : 

# spam.py 


import pkgutil 
data = pkgutil.get_data(_package_, 'somedata.dat') 


得 到 的 结果 会 保存 在 变量 data 中 。 这 是 一 个 字 节 串 ， 其 中 包含 了 文件 的 原始 内 容 。 


10.8.3 讨论 

要 读 取 一 个 数据 文件 ， 我 们 可 能 会 倾向 于 编写 代码 利用 内 建 的 IO 函数 ( 比如 open’) ) 
来 完成 。 但 是 ， 这 种 方法 存在 几 个 问题 。 

首先 ， 对 于 一 个 包 来 说 ， 它 无 法 控制 解释 器 的 当前 工作 目录 。 因 此 , 任何 IO 操作 都 必 
须 使 用 文件 名 的 绝对 路 径 。 由 于 每 个 模块 都 在 ”file 变量 中 保存 了 全 路 径 ， 所 以 要 获 
取 文 件 的 位 置 并 非 不 可 能 ， 但 是 会 很 麻烦 。 

其 次 ， 包 通常 都 会 安装 为 .zip 或 者 .egg 文件 ， 它 们 和 文件 系统 中 普通 的 目录 保存 文件 的 方式 
不 同 。 因 此 如 果 尝 试用 open0 打 开 包 含 在 归档 (archive) 中 的 数据 文件 ， 这 根本 行 不 通 。 
pkgutil.get_data() 函 数 是 一 种 高 级 的 工具 , 无 论 包 以 什么 样 的 形式 安装 或 安装 到 了 哪里 ， 
都 能 够 用 它 来 获取 数据 文件 。 它 能 够 完成 工作 并 把 文件 内 容 以 字 节 串 的 形式 返回 给 我 们 。 
get_data0) 的 第 一 个 参数 是 包含 有 包 名 的 字符 串 。 我 们 可 以 直接 提供 这 个 字符 串 ， 或 者 
使 用 _package ”这 个 特殊 变量 。 第 二 个 参数 是 要 获取 的 文件 相对 于 包 的 名 称 。 如 果 有 
必要 ， 可 以 使 用 标准 的 UNIX 路 径 名 规则 进入 不 同 的 目录 中 ， 只 要 最 后 的 目录 仍然 在 
包 的 内 部 即 可 。 





































































































10.9 添加 目录 到 sys.path 中 


10.9.1 ”问题 
我 们 有 一 些 Python 代码 无 法 导入 ， 因 为 它们 不 在 sys.path 列 出 的 目录 中 。 我 们 想 将 表 





ay 
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的 目录 添加 到 Python 的 路 径 里 ， 但 又 不 想 将 其 硬 编 码 到 代码 中 。 


10.92 解决 方案 


有 两 种 常见 的 方法 可 以 将 新 的 目录 添加 到 sys.path 中 去 。 第 一 ， 可 以 通过 使 用 
PYTHONPATH 环境 变量 来 添加 。 示 例如 下 : 























bash % env PYTHONPATH=/some/dir:/other/dir python3 

Python 3.3.0 (default, Oct 4 2012, 10:17:33) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> import sys 

>>> sys.path 

['', '/some/dir', '/other/dir', ...] 

>>> 

















在 一 个 用 户 程序 中 ， 这 个 环境 变量 可 以 在 程序 启动 时 或 者 通过 某 种 形式 的 shell 脚本 来 
设 定 。 
第 二 种 方法 是 创建 一 个 .pth 文件， 然后 像 下 面 这 样 将 目录 列 出 来 : 


# myapplication.pth 


























/some/dir 
/other/dir 


这 个 .pth 文件 需要 放 在 Python 的 其 中 一 个 site-packages 目录 中 ， 一 般 来 说 位 于 
/usrlocalNib/python3.3/site-packages 或 者 ~/locallib/python3.3/site-packages。 TEA RE RA 
动 的 时 候 ， 只 要 .pth 文件 中 列 出 的 目录 存在 于 文件 系统 上 ， 那 么 它们 就 会 被 添加 到 
sys.path 中 。 如 果 是 要 添加 到 整个 系统 级 的 Python 解释 器 上 ,那么 安装 .pth 文件 可 能 需 
要 管理 员 权限 。 


10.9.3 ”讨论 


如 果 在 确定 文件 的 位 置 时 遇 到 了 麻烦 ， 可 能 会 倾向 于 编写 代码 来 手动 调整 sys.path 的 
值 。 示 例如 下 : 


import sys 





























sys.path.insert (0, '/some/dir') 
sys.path.insert (0, '/other/dir') 


尽管 这 可 以 “工作 ”, 但 在 实践 中 这 种 做 法 极度 脆弱 ， 应 该 尽 可 能 避免 这 种 做 法 。 这 种 
方法 的 部 分 问题 在 于 将 目录 名 称 硬 编码 到 了 源码 中 。 如 果 要 将 代码 转移 到 一 个 新 的 位 
置 时 ， 这 就 会 产生 维护 方面 的 问题 了 。 通 常 更 好 的 方法 是 在 其 他 的 地 方 对 路 径 做 配置 ， 
不 用 去 直接 编辑 代码 。 




















7 





模块 和 包 419 


有 时 候 ， 如 果 利 用 模块 级 的 变量 比如 _ file ORD PEP Gi AAT, HABA 
规避 硬 编 码 目录 所 带 来 的 问题 。 示 例如 下 : 


import sys 























from os.path import abspath, join, dirname 


sys.path.insert (0, abspath(dirname(' file '), 'src')) 
上 面 的 代码 将 src 目录 添加 到 了 sys.path P, MH. sre 目录 和 执行 插入 操作 的 代码 所 在 
的 目录 是 相同 的 。 


目录 site-packages 通常 是 第 三 方 模块 和 包 安 装 的 位 置 。 如 果 代 码 也 按照 这 种 方式 安装 ， 
那么 这 就 是 它们 所 处 的 位 置 。 尽 管用 来 配置 路 径 的 .pth 文件 必须 出 现在 site-packages 中 ， 
但 其 中 记录 的 路 径 可 以 指向 系统 中 任何 希望 的 目录 。 因 此 ， 可 以 选择 让 代码 保存 在 一 个 
完全 不 同 的 目录 中 ， 只 要 这 些 目 录 都 包含 在 .pth 文件 中 即 可 。 


10.10 ”使 用 字符 串 中 给 定 的 名 称 来 导入 模块 


10.10.1 fae 

我 们 已 经 有 了 需要 导入 的 模块 名 称 ， 但 是 这 个 名 称 保存 在 一 个 字符 串 中 。 我 们 想 在 字 
符 串 上 执行 import 命令 。 

10.10.2 ”解决 方案 


当 模 块 或 包 的 名 称 以 字符 串 的 形式 给 出 时 ， 可 以 使 用 importlib.import_ module) K% 
手动 导入 这 个 模块 。 示 例如 下 : 


>>> import importlib 




































































>>> math = importlib.import_module('math') 

>>> math.sin(2) 

0.9092974268256817 

>>> mod = importlib.import_module('urllib.request') 
>>> u = mod.urlopen('http://www.python.org') 

>>> 


























import_module 基本 上 和 import 完成 的 步骤 相同 ， 但 是 import module 会 把 模块 对 象 
作为 结果 返回 给 你 。 我 们 只 需要 将 它 保 存在 一 个 变量 里 , 之 后 把 它 当做 普通 的 模块 使 
用 即 可 。 

如 果 要 同 包 打 交道 ,import module0 也 可 以 用 来 实现 相对 导入 。 但 是 ,需要 提供 一 个 额 
外 的 参数 。 示 例如 下 : 


import importlib 
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# Same as 'from . import b' 
b = importlib.import_module('.b', _ package_) 


10.10.3 itt 

采用 import module0 手 动 导 入 模块 的 需求 最 常 出 现在 当 编 写 代 码 以 某 种 方式 来 操作 或 
包装 模块 时 。 例 如 ， 也 许 正在 实现 一 个 自 定义 的 导 和 机制， 需要 通过 模块 的 名 称 来 完 
成 加 载 并 给 加 载 进来 的 代码 打上 补丁 。 

在 较 老 的 代码 中 ， 有 时 候 会 看 到 用 内 建 的 _import_0 函 数 来 实现 导 和 人 。 尽 管 这 样 也 行 
得 通 ， 但 importlib.import moduleO 通 常 要 更 容易 使 用 一 些 。 

请 参见 10.11 节 中 有 关 自 定义 导入 过 程 的 高 级 示例 。 






































10.11 AA import 钧 子 从 远 端 机 器 上 加 载 模块 


10.11.1 问题 
我 们 想 对 Python 的 import 语句 做 定制 化 处 理 ， 实 现 以 透明 的 方式 从 远 端 机 融 上 加 载 模块 。 


10.11.2 ”解决 方案 
首先 我 们 要 对 安全 性 方面 的 问题 做 严肃 的 免责 声明 。 本 节 讨论 的 思路 和 技术 如 果 缺 少 
某 种 额外 的 安全 和 认证 机 制 的 保护 将 变 得 非常 糟糕 。 也 就 是 说 ， 本 节 的 主要 目标 实际 
上 是 对 Python 中 import 语句 的 内 部 工作 原理 做 了 深入 的 探讨 。 如 果 能 消化 本 节 的 内 容 
并 理解 内 部 的 工作 原理 , 那么 将 为 此 打下 坚实 的 基础 。 今 后 面 对 定制 化 import 的 操作 ， 
无 论 是 出 于 什么 目的 ， 我 们 都 能 应 对 自如 。 好 了 ， 让 我 们 继续 吧 。 
本 节 的 核心 目标 是 扩展 import 语句 的 功能 。 有 好 几 种 方法 可 以 实现 这 个 目标 ， 但 
了 说 明 起 见 ， 我 们 先 把 Python 代码 按照 下 列 方式 进行 组 织 : 

testcode/ 


spam. py 
fib.py 






























































fal 
oe 


grok/ 
_init_.py 
blah.py 


这 些 文件 的 内 容 无 关 紧 要 ,但 是 可 以 在 每 个 文件 中 放 一 些 简 单 的 语句 和 函数 ， 这 样 我 
们 可 以 进行 测试 ， 当 它们 被 导入 时 可 以 看 到 输出 的 结果 。 例 如 : 


# spam.py 
print ("I'm spam") 
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def hello (name): 
print ('Hello %s' % name) 


# fib.py 
print ("I'm fib") 


def fib(n): 
Pi A Ku 
return 1 
else: 
return fib(n-1) + fib(n-2) 


# grok/_init .py 
print ("I'm grok. init ") 


# grok/blah.py 
print ("I'm grok.blah") 

















这 么 做 的 目的 是 允许 这 些 文件 能 够 以 模块 的 形式 从 远 端 访问 。 也 许 最 
在 Web 服务 器 上 来 发 布 这 些 模块 。 只 需要 进入 testcode 目录 ， 





Python 即 可 : 


bash % cd testcode 
bash % python3 -m http.server 15000 
Serving HTTP on 0.0.0.0 port 15000 ... 


让 服务 器 一 直 运行 ， 然 后 启动 一 个 新 的 Python 解释 器 
问 这 些 远 程 文件 。 示 例如 下 : 
>>> from urllib.request import urlopen 


>>> u = urlopen('http://localhost:15000/fib.py') 
>>> data = u.read().decode('utf-8') 


g 
© 
g 
© 


Be 








>>> print (data) 
# fib.py 
print ("I'm fib") 


def fib(n): 
te 1 -<.24 
return 1 
else: 
return fib(n-1) + fib(n-2) 
>>> 

















SAAR AS aie HIS CES 这 一 思想 将 是 本 音 余 下 内 容 的 基础 。 具 体 米 说 就 是 ， 与 其 通 





及 简单 的 方式 就 是 
然后 像 下 面 这 样 运行 





进程 。 确 保 可 以 通过 urllib 来 访 

















过 urlopen0 函 数 手动 从 服务 器 上 把 源 代码 抓 取 下 来 ， 不 如 自 定 义 import 语句 的 行为 ， 使 
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其 能 够 在 幕后 以 透明 的 方式 实现 同样 的 目的 。 
第 一 种 用 来 加 载 远 程 模块 的 方法 就 是 创建 一 个 显 式 的 加 载 函 数 。 示 例如 下 : 


import imp 








import urllib.request 
import sys 


def load module(url): 

u = urllib.request.urlopen (url) 

source = u.read() .decode('utf-8') 

mod = sys.modules.setdefault (url, imp.new_module (url) 

code = compile(source, url, 'exec') 

mod. file = url 

mod. package = '' 
exec (code, mod. dict ) 
return mod 


























这 个 函数 只 是 用 来 下 载 源 代码 的 ， 利 用 compile0 函 数 将 其 编译 为 code 对 象 ， 然 后 在 新 




















创建 的 模块 对 象 的 字典 中 执行 它 。 下 面 是 使 用 这 个 函数 的 方法 : 


>>> fib = load_module('http://localhost:15000/fib.py') 

I'm fib 

>>> fib. fib(10) 

89 

>>> spam = load_module('http://localhost:15000/spam.py') 

I'm spam 

>>> spam.hello('Guido') 

Hello Guido 

>>> fib 

<module 'http://localhost:15000/fib.py' from 'http://localhost:15000/fib.py'> 


>>> spam 


<module 'http://localhost:15000/spam.py' from 'http://localhost:15000/spam.py'> 


>>> 

















HY LAA BOPP fe EK A WE AL TAY AEE PEI PA ie A E FY import 
语句 中 。 而 且 如 果 要 支持 更 加 高 级 的 组 件 ， 比 如 包 ， 就 需要 扩展 代码 ， 这 都 需要 做 更 














多 的 工作 才能 实现 。 

















更 加 高 级 的 方法 是 创建 一 个 自 定义 的 导入 带 ( importer )。 实 现 这 个 目的 的 第 一 种 方法 


是 创建 一 个 称 之 为 元 路 径 导 入 器 (meta path importer) 的 组 件 。 示 例如 下 : 


# urlimport.py 


import sys 
import importlib.abc 
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import imp 

from urllib.request import urlopen 

from urllib.error import HTTPError, URLError 
from html.parser import HTMLParser 


# Debugging 
import logging 
log = logging.getLogger(__name_) 


# Get links from a given URL 
def get links (url): 
class LinkParser (HTMLParser) : 
def handle_starttag(self, tag, attrs): 
if tag == 'a': 
attrs = dict (attrs) 
links.add(attrs.get ("href').rstrip('/')) 
links = set () 
try: 
log.debug('Getting links from %s' % url) 
u = urlopen (url) 
parser = LinkParser() 
parser. feed(u.read() .decode ('utf-8')) 
except Exception as e: 
log.debug('Could not get links. %s', e) 
log.debug('links: %r', links) 
return links 


class UrlMetaFinder (importlib.abc.MetaPathFinder) : 
def init (self, baseurl): 
self. baseurl = baseurl 
self. links = { } 
self. loaders = { baseurl : UrlModuleLoader(baseurl) } 


def find module (self, fullname, path=None) : 

log.debug('find_module: fullname=%r, path=%r', fullname, path) 
if path is None: 

baseurl = self. baseurl 
else: 

if not path[0].startswith(self. baseurl): 

return None 
baseurl = path[0] 


parts = fullname.split('.') 
basename = parts[-1] 
log.debug('find_module: baseurl=%r, basename=%r', baseurl, basename) 
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# Check link cache 
if basename not in self. links: 
self. _links[baseurl] = get links (baseurl) 


# Check if it's a package 

if basename in self. links[baseurl]: 
log.debug('find_module: trying package %r', fullname) 
fullurl = self. baseurl + '/' + basename 


# Attempt to load the package (which accesses _init_.py) 


loader = UrlPackageLoader (fullurl) 

try: 

oader.load_module (fullname) 

self. links[fullurl] = get links (fullurl) 

self. loaders[fullurl] = UrlModuleLoader (fullur1l) 


except ImportError as e: 
og.debug('find_module: package failed. %s', e) 





oader = None 
return loader 


# A normal module 

filename = basename + '.py' 

if filename in self. links[baseurl]: 
og.debug('find_module: module %r found', fullname) 
return self. loaders ([baseurl] 

else: 


return None 





def invalidate caches (self): 
log.debug('invalidating link cache') 
self. links.clear() 


# Module Loader for a URL 
class UrlModuleLoader (importlib.abc.SourceLoader) : 
def init (self, baseurl): 
self. baseurl = baseurl 
self. source cache = {} 


def module_repr(self, module): 


9 


return '<urlmodule %r from %r>' % (module. name , module 


# Required method 
def load module (self, fullname): 


og.debug('find_module: package %r loaded', fullname) 


og.debug('find_module: module %r not found', fullname) 


._file_) 
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code = self.get_code (fullname) 
mod = sys.modules.setdefault (fullname, imp.new_module (fullname) ) 


mod. file = self.get_filename (fullname) 
mod. loader = self 
mod._package_ = fullname.rpartition('.') [0] 


exec (code, mod. dict ) 
return mod 


# Optional extensions 
def get_code(self, fullname): 
src = self.get_source (fullname) 
return compile(src, self.get_filename(fullname), 'exec') 


def get_data(self, path): 
pass 


def get_filename(self, fullname): 
return self. baseurl + '/' + fullname.split('.')[-1] + '.py' 


def get_source(self, fullname): 

filename = self.get_filename (fullname) 

log.debug('loader: reading %r', filename) 

if filename in self. source cache: 
log.debug('loader: cached %r', filename) 
return self. source cache[filename] 

try: 
u = urlopen (filename) 
source = u.read() .decode('utf-8') 
log.debug('loader: %r loaded', filename) 
self. source cache[filename] = source 
return source 

except (HTTPError, URLError) as e: 


log.debug('loader: %r failed. %s', filename, e) 


raise ImportError ("Can't load %s" % filename) 
def is_package(self, fullname): 


return False 


# Package loader for a URL 
class UrlPackageLoader (UrlModuleLoader) : 
def load module (self, fullname): 
mod = super ().load module (fullname) 
mod. path = [ self. baseurl | 
mod. package = fullname 
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def get_filename(self, fullname): 
return self. baseurl + '/' + '_init_.py' 


def is_package (self, fullname): 
return True 


# Utility functions for installing/uninstalling the loader 
_installed meta_cache = { } 
def install_meta (address): 
if address not in _installed meta_cache: 
finder = UrlMetaFinder (address) 
_installed_meta_cache[address] = finder 
sys.meta_path. append (finder) 
log.debug('sr installed on sys.meta_path', finder) 


def remove meta(address): 
if address in installed meta_cache: 
finder = _installed_meta_cache.pop (address) 
sys.meta_path. remove (finder) 
log.debug('sr removed from sys.meta_path', finder) 








下 面 的 交互 式 会 话 展示 了 应 该 如 何 使 用 上 述 代码 : 


>>> # importing currently fails 

>>> import fib 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


ImportError: No module named 'fib' 


>>> # Load the importer and retry (it works) 
>>> import urlimport 

>>> urlimport.install_meta('http://localhost:15000') 
>>> import fib 

I'm fib 

>>> import spam 

I'm spam 

>>> import grok.blah 

I'm grok. init 

I'm grok.blah 

>>> grok.blah._ file _ 
"http://localhost:15000/grok/blah.py' 

>>> 














在 这 个 特定 的 解决 方案 中 ， 我 们 把 一 个 特殊 的 查询 对 象 一 一 UrlMetaFinder 的 实例 安装 
到 sys.meta_path 的 最 后 一 个 条 目 中 。 每 当 要 导入 模块 时 就 会 在 sys.meta_path 中 查找 对 
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应 的 查询 对 象 ， 以 此 来 寻找 模块 。 在 这 个 示例 中 ， 如 果 在 所 有 正常 的 位 置 上 都 找 不 到 
所 需 的 模块 ， 此 时 UrlMetaFinder 实例 就 成 了 最 后 的 救命 稻草 ， 会 触发 它 来 寻找 所 需 的 


模块 。 





作为 一 般 的 实现 方法 ，UrlMetaFinder 类 对 用 户 指定 的 URL 进行 包装 。 在 内 部 ,查询 带 

















过 给 定 的 URL 构建 一 组 合法 的 链接 。 当 出 现 导入 的 动作 时 ， 用 模块 名 来 同 已 知 的 


链接 进行 对 比 。 如 果 有 匹配 ,此 时 就 用 UrlModuleLoader 类 来 从 远 端 机 器 上 加 载 模块 的 


源 代码 并 创建 出 最 终 的 模块 对 象 作 为 结 





导入 做 不 必要 的 HTTP 请 求 。 


= 

















果 。 缓 存 链接 的 一 个 原因 是 为 了 避免 对 重复 的 








自 定 义 导 和 人 功能 的 第 二 种 方式 是 纺 











J 





MHT (hook )， 直 接 将 其 插入 到 sys.path 2 





量 中 ， 用 来 识别 特定 的 目录 命名 模式 。 下 面 我 们 给 urlimport.py 文件 添加 以 下 的 类 和 


支持 函数 


# urlimport.py 


# ... include previous code above ... 


# Path finder class for a URL 


class UrlPathFinder (importlib.abc.PathEntryFinder) : 


def init (self, baseurl): 
self. links = None 
self. loader = 
self. baseurl = baseurl 


def 


find_loader(self, fullname): 


Ur1ModuleLoader (baseur1) 


log.debug('find_loader: %r', fullname) 


parts = fullname.split('. 
basename = parts[-1] 

# Check link cache 

if self. links is None: 
self. links = 


self. links = 


# Check if it's a package 


*) 


if basename in self. links: 


[] # See discussion 
_get_links (self. _baseurl) 


log.debug('find_loader: trying package %r', fullname) 


fullurl = self. baseurl + '/' + basename 


# Attempt to load the package (which accesses _init_.py) 


loader = UrlPackageLoader (fullurl) 


try: 


loader.load_module (fullname) 


log.debug('find_loader: package %r loaded', fullname) 


except ImportError as e: 


log.debug('find_loader: %r is a namespace package', fullname) 
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loader = None 
return (loader, [fullurl] 


# A normal module 
filename = basename + '.py' 

if filename in self. links: 

og.debug('find_loader: module %r found', fullname) 
return (self. loader, []) 

else: 
og.debug('find_loader: module %r not found', fullname) 
return (None, []) 








def invalidate caches (self): 
log.debug('invalidating link cache') 
self. links = None 


# Check path to see if it looks like a URL 
_url_path_cache = {} 
def handle_url (path): 
if path.startswith(('http://', 'https://')): 
log.debug('Handle path? %s. [Yes]', path) 
if path in url path cache: 
finder = _url_path_cache [path] 
else: 
finder = UrlPathFinder (path) 
_url_path_cache[path] = finder 
return finder 
else: 
log.debug('Handle path? %s. [No]', path) 


def install_path_hook(): 
sys.path_hooks.append (handle_url) 
sys.path_importer_cache.clear () 
log.debug('Installing handle_url') 


def remove _ path hook () : 
sys.path_hooks .remove (handle_ur1) 
sys.path_importer_cache.clear () 
log.debug ('Removing handle_url') 





要 使 用 这 个 基于 路 径 的 查询 器 ， 只 需要 将 URL 添加 到 sys.path 中 。 例 如 : 


>>> # Initial import fails 
>>> import fib 


Traceback (most recent call last): 
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File "<stdin>", line 1, in <module> 


ImportError: No module named 'fib' 


>>> # Install the path hook 
>>> import urlimport 
>>> urlimport.install_path_hook () 


>>> # Imports still fail (not on path) 

>>> import fib 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


ImportError: No module named 'fib' 


>>> # Add an entry to sys.path and watch it work 
>>> import sys 

>>> sys.path.append('http://localhost:15000') 
>>> import fib 

I'm fib 

>>> import grok.blah 

I'm grok. init- 

I'm grok.blah 

>>> grok.blah. file __ 

"http: //localhost:15000/grok/blah.py' 

>>> 


最 后 这 个 例子 的 关键 在 于 handle_urlO 函 数 , 我 们 将 它 添加 到 了 sys.path hooks 中 。 当 开 
始 处 理 sys.path 中 的 条 目 时 ， 位 于 sys.path hooks 中 的 函数 就 被 调用 。 如 果 这 些 函 数 中 
有 任何 一 个 返回 了 一 个 查询 对 象 (finder object )， 就 用 这 个 查询 对 象 来 尝试 为 sys.path 
中 的 条 目 加 载 模块 。 


应 该 要 指出 的 是 ， 从 远 端 导入 的 模块 使 用 起 来 和 其 他 的 模块 一 样 。 示 例如 下 : 








>>> fib 

<urlmodule 'fib' from 'http://localhost:15000/fib.py'> 
>>> fib. name _ 

'fib' 

>>> fib. file _ 

"http: //localhost:15000/fib.py' 

>>> import inspect 

>>> print (inspect.getsource (fib) ) 

# fib.py 

print ("I'm fib") 


def fib(n): 
if m <2 
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return 1 
else: 
return fib(n-1) + fib(n-2) 
>>> 


10.11.3 讨论 

在 继续 深入 讨论 本 节 中 提 到 的 技术 之 前 ， 应 该 要 强调 的 是 Python 的 模块 、 包 和 导入 机 
制 是 整个 语言 中 最 为 复杂 的 部 分 之 一 一 一 就 算是 最 有 经 验 的 Python 程序 员 对 这 部 分 的 
理解 往往 也 不 尽 人 意 ， 除 非 他 们 愿意 竭尽 所 能 去 挖掘 底层 的 原理 。 有 几 份 重要 的 文档 
值得 去 阅读 ， 包 括 importlib 模块 的 文档 ( http://docs.python.org/3/library/importlib.html ) 
以 及 PEP 302 ( http://www.python.org/dev/peps/pep-0302 )。 本 书 不 会 重复 文档 中 的 内 容 ， 
但 会 讨论 其 中 的 一 些 要 点 。 


首先 ， 如 果 想 创建 一 个 新 的 模块 对 象 (module object )， 可 以 使 用 imp.new module() PK 
数 。 示 例如 下 : 


>>> import imp 


















































mm 





>>> m = imp.new_module('spam') 
>>> m 

<module 'spam'> 

>>> m. name 

"spam' 

>>> 


模块 对 象 通 常会 有 几 个 意料 之 中 的 属性 ， 包 括 _fie (所 加 载 模块 的 源 文件 名 ) 和 
_ package 〈( 包 的 名 称 ， 如 果 有 的 话 )。 

其 次 , 模块 会 被 解释 器 做 缓存 处 理 。 模 块 缓存 可 以 在 字典 sys.modules 中 找到 。 由 于 
存在 缓存 处 理 ， 通 常 我 们 就 把 缓存 和 模块 的 创建 联合 成 一 个 单独 的 步骤 来 做 。 示 例 
如 下 : 


>>> import sys 















































>>> import imp 

>>> m = sys.modules.setdefault ('spam', imp.new module('spam')) 
>>> m 

<module 'spam'> 

>>> 


这 么 做 的 主要 原因 是 如 果 某 个 给 定名 称 的 模块 已 经 存在 的 话 ， 就 会 直接 得 到 已 经 创建 
好 的 模块 了 。 示 例如 下 : 


>>> import math 























>>> m = sys.modules.setdefault ('math', imp.new module('math')) 
>>> m 


<module 'math' from '/usr/local/lib/python3.3/lib-dynload/math.so'> 
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>>> m.sin(2) 
0.9092974268256817 
>>> m.cos (2) 
-0.4161468365471424 
>> 


由 于 创建 模块 是 很 简单 的 ， 所 以 可 以 直接 编写 简单 的 函数 来 处 理 ， 就 像 本 节 第 一 部 分 
中 的 load_module() 函 数 那 样 。 这 种 方法 的 缺点 是 对 于 更 加 复杂 的 情况 ， 处 理会 变 得 相 
KWF, 例如 导入 包 的 时 候 。 为 了 能 够 处 理 包 ， 将 不 得 不 重新 实现 大 部 分 的 底层 逻辑 ， 
而 这 些 东西 已 经 是 普通 的 import 语句 实现 过 了 的 〈 例 如， 检查 目录 、 查 找 _init .py 
文件 、 执 行 这 些 文件 、 建 立 起 路 径 等 )。 

由 于 这 种 复杂 性 ， 因 此 通常 更 好 的 选择 是 直接 扩展 import 语句 的 功能 ， 而 不 是 去 定义 
自己 的 处 理 函 数 ， 这 正 是 为 何 要 这 么 做 的 原因 之 一 。 

扩展 import 语句 是 简单 而 直接 的 ， 但 是 其 中 涉及 多 个 部 件 。 从 最 高 层级 来 看 ，import 
操作 要 处 理 一 系列 “元 路 径 ” 查 询 句 ， 这 些 查 询 需 可 以 在 sys.meta path 中 找到 。 如 果 
输出 它 的 值 ， 可 以 看 到 如 下 的 输出 : 


>>> from pprint import pprint 
































































































































>>> pprint (sys.meta_path) 

{<class ' frozen_importlib.BuiltinImporter'>, 
<class ' frozen_importlib.FrozenImporter'>, 
<class ' frozen_importlib.PathFinder'>] 

>>> 





当 执 行 一 条 语句 比如 import fib 时 , 解释 器 会 遍历 sys.meta_path 中 的 查询 器 对 象 , 并 调 
用 它们 的 find module() 方 法 以 此 来 找到 合适 的 模块 加 载 器 。 用 实验 的 方式 来 观察 这 一 
过 程 会 对 我 们 的 理解 有 所 帮助 ， 因 此 我 们 这 里 定义 如 下 的 类 并 尝试 做 以 下 的 操作 : 

>>> class Finder: 


def find_module(self, fullname, path): 
print ('Looking for', fullname, path) 














return None 


>>> import sys 

>>> sys.meta path.insert (0, Finder()) # Insert as first entry 
>>> import math 

Looking for math None 

>>> import types 

Looking for types None 

>>> import threading 

Looking for threading None 


Looking for time None 











Looking for traceback None 
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注意 在 每 个 import 操作 中 find_module0 方 法 是 如 何 被 触发 执行 的 。 在 这 个 方法 中 ， 
数 path 的 作用 是 用 来 处 理 包 的 。 当 导入 的 是 包 时 ， 参 数 path 表示 的 是 包 的 _ path __ 


Looking for linecache None 
Looking for tokenize None 
Looking for token None 

>>> 

















参 
属 


性 中 列 出 的 目录 列表 。 需 要 检查 这 些 路 径 来 找 出 包 中 的 子 模块 。 例 如 ， 注 意 xml.etree 
和 xml.etree.ElementTree 的 路 径 设 定 : 


查 





>>> import xml.etree.ElementTree 

Looking for xml None 

Looking for xml.etree ['/usr/local/lib/python3.3/xml'] 

Looking for xml.etree.ElementTree ['/usr/local/lib/python3.3/xml/etree'] 
Looking for warnings None 

Looking for contextlib None 

Looking for xml.etree.ElementPath ['/usr/local/lib/python3.3/xml/etree'] 





Looking for _elementtree None 
Looking for copy None 
Looking for org None 


Looking for pyexpat None 





Looking for ElementC14N None 
>>> 




















头 移动 到 列表 尾部 ， 然 后 尝试 做 几 个 导 人 操作 : 


>>> del sys.meta_path[0] 

>>> sys.meta_path.append (Finder () ) 
>>> import urllib.request 

>>> import datetime 


询 咒 对 象 在 sys.meta_path 中 的 位 置 是 至 关 重 要 的 。 做 个 试验 ,将 查询 器 对 象 从 列表 


现在 看 不 到 任何 输出 了 ， 因 为 现在 的 导入 操作 被 sys.meta_path 中 的 其 他 条 目 处 理 了 。 





在 这 种 情况 下 ， 只 有 在 导入 并 不 存在 的 模块 时 才 会 触发 我 们 自 定义 的 查询 咒 : 





>>> import fib 
Looking for fib None 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
mportError: No module named 'fib' 
>>> import xml.superfast 
Looking for xml.superfast ['/usr/local/lib/python3.3/xml'] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 





mportError: No module named 'xml.superfast' 
>>> 
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我 们 可 以 安装 一 个 查询 需 以 捕获 未 知 的 模块 ， 这 一 





alin 





了 实 正 是 本 节 中 给 出 的 


UrlMetaFinder 类 的 核心 所 在 。 在 sys.meta_path 的 尾部 添加 一 个 UrlMetaFinder 实例 ， 
把 它 当 做 导入 操作 的 最 后 一 道 保险 。 如 果 请 求 的 模块 名 无 法 被 其 他 导入 机 制 所 定位 ， 
那么 就 由 这 个 查询 器 来 负责 处 理 。 当 处 理 包 的 导入 时 还 需要 注意 一 些 事项 。 具 体 来 说 















































就 是 , 对 于 path 参数 的 值 , 我 们 需要 检查 看 它 是 否 以 我 们 注册 到 查询 器 中 的 URL 开头 。 














> 








如 果 不 是 ， 那 么 子 模块 肯定 属于 其 他 查询 器 负责 处 理 的 范畴 ， 这 里 就 应 该 忽略 。 
于 包 的 附加 处 理 可 以 在 UrlPackageLoader 类 中 找到 。 这 个 类 不 是 去 导入 包 的 名 称 ， 




















而 是 尝试 加 载 底层 的 _init_.py 文件 ， 最 后 它 还 会 设 定 模块 的 _path 属性 。 最 后 这 一 
步 是 非常 关键 的 ， 因 为 当 加 载 包 的 子 模块 时 ， 这 个 设 定 的 值 会 传递 给 接 下 来 的 
find moduleO 调 用 。 
基于 路 径 的 import 钩子 是 对 这 些 思 想 的 一 种 扩展 ， 只 是 其 中 的 机 制 有 所 不 同 。 如 你 所 
知 ，sys.path 是 一 个 路 径 列 表 ， 其 中 保存 的 是 Python 查询 模块 的 路 径 。 例 如 : 


>>> from pprint import pprint 





>>> import sys 








>>> pprint (sys.path) 


('', 


























'/usr/local/lib/python33.zip', 
'/usr/local/lib/python3.3', 
'/usr/local/lib/python3.3/plat-darwin', 
'/usr/local/lib/python3.3/lib-dynload', 
'/usr/local/lib/...3.3/site-packages'] 


>>> 








sys.path 中 的 每 一 个 条 目 都 会 同一 个 查询 器 对 象 关 联 起 来 。 我 们 可 以 通过 打印 
sys.path importer_cache 来 查看 这 些 杏 询 器 : 

















>>> pprint (sys.path_importer_cache) 


{'.': FileFinder('.'), 
'/usr/local/lib/python3. 
'/usr/local/lib/python3. 
'/usr/local/lib/python3. 
'/usr/local/lib/python3. 
'/usr/local/lib/python3. 
"/usr/local/lib/python3 
'/usr/local/lib/python3. 
'/usr/local/lib/pyt 


>>> 














3': FileFinder('/usr/local/lib/python3.3'), 

3/': FileFinder('/usr/local/lib/python3.3/'), 
3/collections': FileFinder('...python3.3/collections'), 
3/encodings': FileFinder('...python3.3/encodings'), 
3/lib-dynload': FileFinder('...python3.3/lib-dynload'), 


.3/plat-darwin': FileFinder('...python3.3/plat-darwin'), 


3/site-packages': FileFinder('...python3.3/site-packages'), 


hon33.zip': None} 


sys.path_importer_cache 比 sys.path 要 大 的 多 ， 因 为 前 者 会 针对 所 有 已 知 代码 将 被 加 载 
的 目录 记录 下 相应 的 查询 器 。 这 包括 了 包 中 的 子 目 录 ， 而 这 些 信息 通常 是 不 包含 在 
sys.path PAY. 
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“SHUT import fib HY, sys.path 中 的 目录 会 按 顺 序 逐 个 接受 检查 。 对 于 每 个 目录 ， 名 称 
fib 会 被 传递 给 sys.path_importer_cache 中 与 目录 相关 联 的 查询 器 。 我 们 也 可 以 创建 自己 
的 查询 器 ， 并 将 其 添加 到 sys.path_importer_cache 中 。 比 如 下 面 这 个 实验 : 


>>> class Finder: 





def find loader(self, name): 
print ('Looking for', name) 
return (None, []) 


>>> import sys 

>>> # Add a "debug" entry to the importer cache 
>>> sys.path_importer_cache['debug'] = Finder () 
>>> # Add a "debug" directory to sys.path 

>>> sys.path.insert (0, 'debug') 

>>> import threading 

Looking for threading 

Looking for time 

Looking for traceback 

Looking for linecache 

Looking for tokenize 

Looking for token 

>>> 


这 里 , 我 们 以 debug 为 名 称 安装 了 一 个 新 的 缓存 条 目 ， 并 把 debug 作为 sys.path 的 第 一 
个 条 目 。 在 之 后 所 有 的 导入 动作 中 ， 就 会 发 现 自己 定义 的 查询 器 都 会 被 触发 执行 。 但 是 ， 
由 于 它 只 会 返回 (None, [])， 因 此 处 理 流程 只 是 简单 地 继续 前 往 下 一 个 条 目 执 行 。 


sys.path importer_cache 中 的 内 容 是 由 保存 在 sys.path hooks 中 的 一 系列 函数 来 控制 的 。 
尝试 做 下 面 这 个 实验 ， 它 会 清空 缓存 ， 并 添加 一 个 新 的 路 径 检 查 函 数 到 sys.path_hooks 
中 去 : 

>>> sys.path importer cache.clear() 


>>> def check path (path): 
print ('Checking', path) 



































raise ImportError () 


>>> sys.path_hooks.insert (0, check_path) 

>>> import fib 

Checked debug 

Checking . 

Checking /usr/local/lib/python33.zip 

Checking /usr/local/lib/python3.3 

Checking /usr/local/lib/python3.3/plat-darwin 

Checking /usr/local/lib/python3.3/lib-dynload 

Checking /Users/beazley/.local/lib/python3.3/site-packages 
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Checking /usr/local/lib/python3.3/site-packages 
Looking for fib 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 
>>> 


可 以 看 到 ， 针 对 sys.path 中 的 每 一 个 条 目 ，check_ pathO 函 数 都 会 得 到 调用 。 但 是 由 
会 产生 ImportError 异常 ， 因 此 实际 上 什么 也 没 发 生 ( 只 是 跳 转 到 sys.path hooks 
下 一 个 函数 继续 执行 检查 )。 


利用 sys.path 的 处 理 机 制 , 我 们 可 以 安装 一 个 自 定义 的 路 径 检查 函数 来 查找 特定 的 文件 
名 模式 ， 比 如 URL。 示 例如 下 : 
>>> def check_url (path): 


if path.startswith('http://') 
return Finder () 





else: 


raise ImportError () 


>>> sys.path.append('http://localhost:15000') 
>>> sys.path_hooks[0] = check_url 
>>> import fib 
Looking for fib # Finder output! 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 


ImportError: No module named 'fib' 


>>> # Notice installation of Finder in sys.path importer cache 
>>> sys.path_importer_cache['http://localhost:15000'] 
<_main_.Finder object at 0x10064c850> 

>>> 





这 就 是 本 节 最 后 这 部 分 内 容 的 核心 工作 原理 。 从 本 质 上 说 ， 就 是 在 sys.path hooks 中 安 
装 一 个 用 来 寻找 URL 的 自 定 义 路 径 检查 男 数 。 当 遇 到 这 个 自 定 义 检 查 函 数 时 ， 会 产生 
一 个 新 的 UrlPathFinder 实例 并 将 其 安装 到 sys.path_importer_cache 中 。 从 此 之 后 ,对 于 
所 有 的 导入 语句 ,只 要 在 遍历 sys.path 的 过 程 中 直到 这 个 部 分 , 就 会 尝试 使 用 自 定义 的 
查询 器 了 。 


基于 路 径 的 导入 器 在 处 理 包 的 时 候 多 少 需要 一 些 技巧 ,与 find _loader( 方 法 的 返回 值 也 
有 关系 。 对 于 简单 的 模块 来 说 ,find loader0O 返 回 一 个 元 组 (loader None), 这 里 的 loader 
是 将 要 导入 这 个 模块 的 加 载 句 实例 。 


对 于 一 个 普通 的 包 来 说 ， find _ loaderO 返 回 一 个 元 组 (loader, path), 这 里 的 loader 是 将 要 
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导入 这 个 包 的 加 载 器 实例 (并且 会 执行 _init .py )， 而 path 是 一 个 目录 列表 ， 这 些 目 
录 会 组 成 包 的 _path __ 属性 的 初始 值 。 比方 说 ， 如 果 URL 是 http://localhost:15000， 并 
且 某 个 用 户 执行 了 import grok 语句 ，find_loader0 返 回 的 路 径 就 会 是 ['http://localhost: 
15000/grok']。 


find_loaderO0) 还 必须 负责 处 理 命 名 空间 包 ( 见 10.5 节 ) 的 情况 。 命 名 空间 包 是 一 个 合法 

的 包 ， 其 目录 名 存在 但 其 中 并 不 包含 _init py 文件 。 对 于 这 种 情况 ，find_ loader0 必 

须 返 回 一 个 元 组 (None, path)， 这 里 的 path 是 一 个 目录 列表 ， 这 些 目录 组 成 了 包 的 

_ path _ 属性， 并 和 善 通 的 包 一 样 ， 认 为 在 这 些 目录 中 定义 有 init__.py 文件 (实际 并 

不 存在 )。 对 于 这 种 情况 ，import 导 和 人 机 制 会 继续 检查 sys.path 中 的 目录 。 如 果 找 到 了 

更 多 的 命名 空间 包 ， 那么 所 有 找到 的 结果 路 径 都 会 连接 在 一 起 以 形成 一 个 最 终 的 命名 
空间 包 。 有 关 命 名 空间 包 的 更 多 信息 请 参见 10.5 节 。 


在 我 们 的 解决 方案 中 ， 在 处 理 包 的 时 候 还 运用 了 递归 的 思想 ,虽然 看 起 来 并 不 明显 但 
它 同样 能 够 工作 。 所 有 的 包 都 包含 一 个 内 部 的 路 径 设 置 ， 这 可 以 在 _path 属性 中 找到 。 
示例 如 下 : 


>>> import xml.etree.ElementTree 







































































>>> xml. path 
['/usr/local/lib/python3.3/xml"] 

>>> xml.etree. path 
['/usr/local/lib/python3.3/xml/etree'] 
>>> 


正如 我 们 提 到 过 的 ， ”path ”的 设置 是 由 find loader() 方 法 的 返回 值 来 控制 的 。 但 是 ， 
之 后 对 ”path ”的 处 理 也 是 由 sys.path hooks 中 的 函数 来 处 理 的 。 因 此 ， 当 加 载 包 中 的 
子 模 块 时 ，_path ”中 的 条 目 是 由 handle_urlO 函 数 来 负责 检查 的 。 这 会 导致 创建 出 新 的 
UrlPathFinder 实例 并 添加 到 sys.path_importer_cache 中 。 


在 我 们 的 实现 中 ， 最 后 一 个 棘手 的 部 分 是 考虑 handle_url0 函 数 的 行为 以 及 它 同 内 部 使 
用 的 函数 _get_links0 之 间 的 交互 。 如 果 我 们 的 查询 絮 实 现 中 用 到 了 其 他 的 模块 ( 例如 
urllib.request ), 那么 有 可 能 这 些 模块 会 在 查询 器 工作 的 过 程 中 发 起 进一步 的 模块 导入 请 
求 。 这 就 会 导致 handle_urlO0 和 查询 器 的 其 他 部 分 以 循环 递归 的 形式 执行 下 去 。 为 了 应 
对 这 种 可 能 ,我 们 给 出 的 实现 中 对 已 经 创建 出 的 查询 器 维 护 了 一 个 缓存 对 象 ( 每 条 URL 
对 应 一 个 缓存 )。 这 就 避免 了 重复 创建 查询 器 的 问题 。 此 外 ， 下 面 的 代码 片段 确保 了 查 
询 器 在 获取 初始 链接 的 过 程 中 不 会 去 响应 任何 导入 请 求 : 


# Check link cache 
if self. links is None: 
















































































self. links = [] # See discussion 
self. links = get links (self. baseurl) 


在 其 他 的 实现 中 可 能 不 需要 做 上 述 检查 ,但 是 对 于 这 个 涉及 URL 的 例子 ， 这 么 做 是 必 
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需 的 。 


最 后 ， 查 询 器 中 的 invalidate_caches0 是 一 个 实用 的 方法 ， 当 源 代 码 需要 发 生 改 变 时 用 
来 清除 内 部 的 缓存 。 当 用 户 调 用 importlib.invalidate_cachesO 时 会 触发 该 方法 执行 。 如 
果 想 让 URL 导入 器 重新 读 取 链接 列表 ， 可 以 使 用 这 个 方法 。 这 么 做 可 能 是 为 了 能 够 访 
问 到 新 添加 的 文件 。 

对 比 以 上 两 种 方法 ( 修改 sys.meta_path 或 者 使 用 path FF ) 有 助 于 站 在 更 高 层 的 角度 
来 看 待 问 题 。 利 用 sys.meta_path 安装 的 导入 器 可 以 自由 地 以 任何 它们 所 和 希望 的 方式 来 
处 理 模块 。 例 如 ， 它 们 可 以 从 数据 库 中 取出 模块 加 载 ， 或 者 以 根本 不 同 于 普通 的 模块 / 





包 处 









































理 的 方式 来 完成 导入 。 这 种 自由 同样 意味 着 这 样 的 导入 器 需要 做 更 多 的 簿 记 








(bookkeeping ) 和 内 部 管理 工作 。 这 也 解释 了 为 何在 UrlMetaFinder 的 实现 中 需要 自己 
实现 链接 缓存 、 加 载 器 以 及 其 他 一 些 细节 。 另 一 方面 , 基于 路 径 的 钩子 方法 则 同 sys.path 


的 处 到 














联系 得 更 为 紧密 。 由 于 同 sys.path 的 关系 紧密 ,以 这 种 扩展 方式 加 载 的 模块 在 特 
征 上 倾向 于 与 程序 员 通 常 使 用 的 普通 模块 和 包 相 同 。 








假设 你 的 大 脑 现在 还 没有 完全 爆炸 ， 理 解 和 试验 本 节 中 技术 的 关键 方法 可 能 就 是 添加 
日 志 记录 了 。 我 们 可 以 开启 日 志 功能 并 尝试 如 下 的 试验 : 


import logging 


Traceback 


logging. basicConfig (level=logging.DEBUG) 


import urlimport 


urlimport.install_path_hook () 

DEBUG: urlimport:Installing handle_url 
>>> import fib 
DEBUG: urlimport:Handle path? /usr/local/lib/python33.zip. [No] 


(most 


recent call last): 


File "<stdin>", line 1, in <module> 





ImportError: No module named 'fib' 


>>> import sys 
>>> sys.path.append('http://localhost:15000') 
>>> 








EBU 








import fib 


G:ur 


D 
DEBUG: ur 
DEBUG: ur 
DEBUG: ur 
DEBUG: ur 
DEBUG: ur 
DEBUG: ur 


I'm fib 
>>> 





import: 
import: 
import: 
import: 
import: 
import: 


import: 


Handle path? http://localhost:15000. [Yes] 
Getting links from http://localhost:15000 
links: {'spam.py', 'fib.py', 'grok"} 
find_loader: 'fib' 

find_loader: module 'fib' found 

oader: reading 'http://localhost:15000/fib.py' 
oader: 'http://localhost:15000/fib.py' loaded 


























最 后 但 同样 重要 的 是 ， 睡 前 在 枕头 下 备 好 PEP 302 (http://www.python.org/dev/peps/pep-0302 ) 
和 importlib 的 文档 ， 花 些 时 间 读 一 读 它们 也 许 是 很 明智 的 。 
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10.12 在 模块 加 载 时 为 其 打 补丁 


10.12.1 问题 
我 们 想 对 已 有 的 模块 打 补 丁 或 对 其 中 的 函数 添加 装饰 器 。 但 是 ,我们 只 和 希望 当 模块 实 
际 得 到 导入 的 时 候 才 这 么 做 ， 之 后 再 在 别处 使 用 。 


10.12.2 解决 方案 

这 个 问题 的 关键 在 于 我 们 想 针对 正在 加 载 的 模块 执行 响应 操作 。 当 某 个 模块 得 到 加 载 
时 ， 也 许 我 们 想 触 发 某 种 形式 的 回调 函数 来 通知 这 一 事实 。 

这 个 问题 可 以 使 用 10.11 节 中 讨论 过 的 import 钩子 机 制 来 解决 .下 面 是 一 种 可 能 的 解决 
方案 : 


# postimport.py 

















import importlib 
import sys 
from collections import defaultdict 


_post_import_hooks = defaultdict (list) 


class PostImportFinder: 
def init (self): 
self. skip = set() 


def find_module(self, fullname, path=None): 
if fullname in self. skip: 
return None 
self. skip.add(fullname) 
return PostImportLoader (self) 


class PostImportLoader: 
def init (self, finder): 


self. finder = finder 


def load module (self, fullname): 
importlib.import_module (fullname) 
module = sys.modules [fullname] 
for func in _post_import_hooks [fullname]: 
func (module) 
self. finder. skip.remove (fullname) 


return module 
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def when_imported(fullname) : 
def decorate (func): 
if fullname in sys.modules: 
func (sys.modules [fullname] ) 
else: 
_post_import_hooks [fullname] .append (func) 
return func 
return decorate 


sys.meta_path.insert (0, PostImportFinder () ) 


要 使 用 这 份 代码 ， 就 要 用 到 when_imported0 装 饰 器 。 示 例如 下 : 


>>> from postimport import when imported 
>>> @when_imported('threading') 
. def warn threads (mod): 
print ('Threads? Are you crazy?') 


>>> 
>>> import threading 
Threads? Are you crazy? 
>>> 


YEATES BI, HPA AE MES ae, EU: 


from functools import wraps 
from postimport import when_imported 


def logged(func) : 
@wraps (func) 
def wrapper (*args, **kwargs): 
print ('Calling', func. name , args, kwargs) 
return func(*args, **kwargs) 


return wrapper 


# Example 
@when_imported('math') 
def add_logging (mod) : 
mod.cos = logged(mod.cos) 
mod.sin = logged (mod. sin) 


10.12.3 讨论 
本 节 依 赖 于 10.11 节 中 讨论 过 的 import AFAR, HT DOVER. 
首先 ，@when_imported 装饰 右 的 作用 是 注册 在 导入 时 需要 触发 执行 的 处 理 函 数 。 这 个 
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装饰 器 检查 sys.modules, AAEM EA AIIM o WR, WIZ Zl i FAD BE eR A 
FSU AEH PRBS TIE!) post_import hooks 字典 中 去 。 定 义 post import hooks AY H 
的 只 是 简单 地 用 来 收集 所 有 的 已 经 针对 每 个 模块 所 注册 的 处 理 对 象 。 原 则 上 ， 对 于 一 
个 给 定 的 模块 可 以 注册 多 个 处 理 程序 。 


在 导入 模块 之 后 , 要 触发 post_import hooks 中 挂 起 的 操作 ,PostImportFinder 类 的 实例 
就 要 安装 到 sys.meta path 中 的 首 元 素 位 置 上 。 如 果 回 顾 一 下 10.11 节 就 会 知道 ， 
sys.meta_path 中 包含 一 列 用 来 定位 模块 位 置 的 查询 器 对 象 。 通 过 将 PostImportFinder 类 
的 实例 安装 到 列表 的 首 元 素 位 置 ， 那 么 它 就 能 捕获 所 有 的 模块 导入 动作 。 


但 是 在 本 节 中 ，PostImportFinder 的 作用 不 是 用 来 加 载 模块 ， 而 是 触发 相应 的 处 理 流程 
来 完成 整个 导 和 动作。 要 做 到 这 一 点 ， 实 际 的 导入 被 委托 给 sys.meta_path 中 的 其 他 查 
询 器 来 完成 。 不 要 尝试 直接 实现 这 一 步骤 ,相反 , 我 们 是 在 PostImportLoader 类 中 递归 
调用 函数 imp.import module0 来 完成 的 。 为 了 避免 出 现 无 限 递归 的 情况 ， 我 们 在 
PostImportFinder 类 中 维护 了 一 个 集合 ， 其 中 包含 所 有 当前 正 处 于 加 载 过 程 中 的 模块 。 

如 果 某 个 模块 名 属于 这 个 集合 , PostImportFinder 只 会 简单 地 忽略 它 。 这 就 是 导致 import 
请 求 会 传递 给 sys.meta_path 中 其 他 查询 器 处 理 的 原因 。 


在 一 个 模块 已 经 通过 imp.import module0 加 载 之 后 ， 所 有 当前 注册 到 post import 
hooks 中 的 处 理 例 程 都 会 以 新 加 载 的 模块 作为 参数 得 到 调用 。 从 这 一 刻 开始 ， 处理 例 程 
就 可 以 自由 地 对 模块 做 任何 想 做 的 操作 了 。 

本 节 所 展示 的 方法 中 一 个 主要 的 特性 就 是 对 模块 的 打 补 丁 操 作 是 以 无 颖 的 方式 进行 
的 ， 与 所 感 兴趣 的 模块 的 实际 位 置 和 加 载 方式 无 关 。 只 需要 简单 地 编写 一 个 处 理 函 数 
并 用 @when imported0 进 行 装饰 ， 从 那 一 刻 起 所 有 的 操作 就 能 魔法 般 地 工作 起 来 。 
本 节 中 需要 注意 的 一 个 问题 是 对 于 已 经 使 用 imp.reload0 显 式 重新 加 载 的 模块 ， 本 节 给 出 
的 方法 是 无 效 的 。 也 就 是 说 ， 如 果 重 新 加 载 一 个 之 前 加 载 过 的 模块 ， 处 理 例 程 是 不 会 再 
次 得 到 触发 的 (我 们 有 了 更 多 的 理由 不 要 在 生产 环境 中 使 用 reload0 )。 而 另 一 方面 ， 如 
RJA sys.modules 中 删除 模块 然后 再 重新 导入， 就 会 发 现 处 理 例 程 会 再 次 触发 执行 。 
更 多 有 关 post-import 钩子 的 信息 可 以 在 PEP 369 (http:/www.python.org/dev/peps/pep-0369 ) 
中 找到 。 在 写作 本 节 时 ， 这 份 PEP 已 经 被 作者 撤销 了 ， 原 因 是 它 同 当前 的 importlib 模 
块 的 实现 相 比 显得 过 时 了 ,但 是 利用 本 节 所 展示 的 方法 实现 自己 的 解决 方案 已 经 足够 
简单 了 。 


10.13 ”安装 只 为 自己 所 用 的 包 


10.13.1 问题 
我 们 想 安装 一 个 第 三 方 的 包 , 但 是 没有 权限 在 系统 Python 中 安装 其 他 的 包 。 另 一 种 情 
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况 是 ， 也 许 我 们 只 想 安装 一 个 给 自己 使 用 的 包 ， 而 不 是 给 系统 中 的 所 有 用 户 使 用 。 


10.13.2 ”解决 方案 


Python 有 一 个 用 户 级 的 安装 目录 ， 通常 位 于 类 似 ~./localib/python3.3/site-packages 这 样 
的 目录 下 。 要 让 包 强 制 安装 到 这 个 目录 下 ， 只 要 在 安装 命令 后 添加 --user 选项 即 可 。 示 
例如 下 : 


python3 setup.py install -user 


或 者 


pip install --user packagename 




















用 户 级 的 site-package 目录 通常 会 在 sys.path 中 出 现 ,日 位 于 系统 级 的 site-package 目录 
之 前 。 因 此 ， 采 用 这 种 技术 安装 的 包 比 已 经 安装 到 系统 中 的 包 优 先 级 要 高 ( 尽管 并 不 
会 总 是 这 样 ， 这 取决 于 第 三 方 包 管 理工 具 的 具体 行为 ， 比 如 distribute 或 pip )。 


10.13.3 讨论 

一 般 来 说 ， 包 会 被 安装 到 系统 级 的 site-package 目录 下 ， 可 以 在 例如 /usr/localNlib/ 
python3.3/site-packages 的 位 置 上 找到 。 但 是 安装 到 系统 级 的 目录 下 通常 都 需要 有 管理 
员 权 限 , 并 且 要 使 用 sudo 命令 。 就 算 我 们 有 权限 执行 这 样 的 命令 , 使 用 sudo 安装 一 个 
新 的 且 没 有 经 过 实践 证 明 的 包 也 可 能 会 给 我 们 带 来 麻烦 。 

把 包 安装 到 用 户 级 的 目录 中 通常 是 一 种 有 效 的 规避 方案 ， 这 么 做 允许 我 们 创建 一 个 自 
定义 的 安装 。 


另 一 种 解决 方案 是 可 以 创建 一 个 虚拟 环境 ， 这 正 是 我 们 在 下 一 节 要 讨论 的 主题 。 















































10.14 创建 新 的 Python 环境 


10.14.1 问题 


我 们 想 创建 一 个 新 的 Python 环境 ,在 新 环境 中 可 以 自由 地 安装 模块 和 包 。 但 是 , 我 们 并 不 
想 为 此 安装 一 个 新 的 Python 拷贝 或 者 做 出 任何 可 能 会 影响 到 系统 级 Python 安装 的 修改 。 


10.14.2 解决 方案 
可 以 通过 pyvenv 命令 创建 一 个 新 的 “虚拟 ”环境 。 这 个 命令 被 安装 到 同 Python 解释 器 
一 样 的 目录 中 ， 在 Windows 下 可 能 位 于 Scripts 目录 下 。 这 里 有 一 个 示例 : 


bash % pyvenv Spam 
bash % 
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提供 给 pyvenv 的 名 称 就 是 将 要 创建 的 目录 名 称 。 创 建 好 之 后 ,Spamz 目录 看 起 来 是 这 样 的 : 


bash % cd Spam 

bash % ls 

bin include lib pyvenv.cfg 
bash % 


在 bin 目录 下 ， 我 们 会 发 现 有 一 个 可 使 用 的 Python 解释 器 。 示 例如 下 : 


bash % Spam/bin/python3 

Python 3.3.0 (default, Oct 6 2012, 15:45:22) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 











>>> from pprint import pprint 

>>> import sys 

>>> pprint (sys.path) 

['"', 
'/usr/local/lib/python33.zip', 
'/usr/local/lib/python3.3', 
'/usr/local/lib/python3.3/plat-darwin', 
'/usr/local/lib/python3.3/lib-dynload', 
'/Users/beazley/Spam/lib/python3.3/site-packages'] 

>>> 


这 个 解释 器 的 核心 特征 就 是 它 的 site-package 目录 已 经 被 设 定 为 同 新 创建 的 环境 相关 联 
了 。 如 果 决 定安 装 第 三 方 的 包 ,， 那 么 它们 就 会 被 安装 到 这 里 ， 而 不 是 普通 的 系统 级 
site-package 目录 中 。 


10.14.3 ”讨论 


创建 虚拟 环境 大 部 分 的 原因 都 是 为 了 安装 和 管理 第 三 方 的 包 。 可 以 在 示例 中 看 到 ， 
sys.path 变量 中 包含 的 目录 来 自 于 普通 的 系统 级 Python ， 但 是 site-package 目录 已 经 被 
重新 定位 到 新 的 目录 上 了 。 


有 了 新 的 虚拟 环境 ,下 一 步 通 常 是 安装 一 个 包 管理 融 ,比如 distribute 或 者 pip。 当 安装 
这 类 工具 和 其 他 的 包 时 ， 只 需 确 保 使 用 的 是 虚拟 环境 中 的 解释 器 即 可 。 这 样 的 话 ， 安 
装 的 包 应 该 就 会 放 在 新 创建 的 site-packages HKF T o 


尽管 虚拟 环境 看 起 来 好 像 是 Python 安装 的 一 份 拷贝 ， 但 它 实 际 上 只 是 由 几 个 文件 和 一 
些 符号 链接 所 组 成 。 所 有 的 标准 库 文 件 和 解释 器 执行 文件 都 来 自 于 原来 的 Python 安装 
包 。 因 此 ， 创 建 这 样 的 环境 非常 简单 方便 ， 几 乎 不 占用 什么 系统 资源 。 

默认 情况 下 ， 虚 拟 环境 是 完全 干净 且 不 包含 任何 第 三 方 插件 的 。 如 果 想 将 已 经 安装 过 
的 包 引 入 ， 使 其 作为 虚拟 环境 的 一 部 分 ， 那 么 可 以 使 用 选项 --system-site-packages 来 创 
建 虚拟 环境 。 示 例如 下 : 
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bash % pyvenv --system-site-packages Spam 
bash % 


AK pyvenv 和 虚拟 环境 的 更 多 信息 可 以 在 PEP 405 ( http://www.python.org/dev/peps/ 
pep-0405 ) 中 找到 。 


10.15 发布 自 定义 的 包 


10.15.1 ”问题 
我 们 编写 了 一 个 有 用 的 库 ， 想 将 其 分 发 给 其 他 人 使 用 。 


10.15.2 解决 方案 
如 果 打算 将 代码 发 布 出 去 ， 首 先 要 做 的 就 是 为 自己 的 库 起 一 个 独一无二 的 名 称 并 清理 
代码 的 目录 结构 。 例 如 ， 一 个 典型 的 程序 库 结 构 看 起 来 大 致 是 这 样 的 : 
projectname/ 
README.txt 


Doc/ 
documentation.txt 















































projectname/ 
_init .py 
foo.py 
bar. py 
utils/ 
_init .py 
spam.py 
grok.py 
examples/ 
helloworld.py 


要 使 得 包 能 够 发 布 出 去 ， 首 先 编写 一 个 setup.py 文件 ， 看 起 来 是 这 样 的 : 


# setup.py 
from distutils.core import setup 


setup (name='projectname', 
version='1.0', 
author='Your Name', 
author_email='you@youraddress.com', 
url='http://www.you.com/projectname', 
packages=['projectname', 'projectname.utils'], 
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接 下 来 要 创建 一 个 MANIFEST.in 文件 ， 并 在 其 中 列 出 各 种 希望 包含 在 包 中 的 非 源 代码 
文件 : 


# MANIFEST.in 
include *.txt 
recursive-include examples * 


recursive-include Doc * 








确保 setup.py 和 MANIFEST.in 文件 位 于 包 的 顶层 目录 。 一 旦 做 完 这 些 ， 应 该 就 能 够 通 
过 命令 来 创建 一 个 源 代码 级 的 分 发 包 了 : 


% bash python3 setup.py sdist 


根据 不 同 的 系统 平台 , 这 么 做 会 创建 出 像 projectname-1.0.zip 或 者 projectname-1.0.tar.gz 
这 样 的 文件 。 如 果 一 切 顺 利 ， 这 个 文件 就 可 用 来 发 布 给 其 他 人 或 者 上 传 到 Python 
Package Index (http://pypi.python.org ) E T o 


10.15.3 讨论 

对 于 纯 Python 代码 来 说 ,编写 一 个 简单 的 setup.py 文件 通常 是 很 直接 的 。 但 其 中 一 个 
潜在 的 问题 是 我 们 必须 手动 列 出 包 中 的 每 一 个 子 目 录 。 一 个 常见 的 错误 就 是 只 列 出 了 
包 的 顶层 目录 而 忘记 包含 进 包 中 的 子 模块 ,这 就 是 为 什么 在 setup.py 中 对 包 的 规格 说 明 
里 包含 了 列表 packages=['projectname', 'projectname.utils"] 的 原因 。 


大 多 数 Python 程序 员 都 知道 ， 如 今 有 许多 第 三 方 的 包 管理 工具 ,包括 安 装 、 发 布 相关 
的 ， 等 等 。 这 些 第 三 方 工具 中 有 一 些 可 用 来 替代 标准 库 中 的 distutils 库 。 请 注意 ， 如 果 
要 依赖 这 些 包 ,那么 用 户 可 能 没 法 安装 使 用 我 们 的 软件 ， 除 非 他 们 也 安装 了 所 需 的 包 
管理 工具 。 基 于 此 ， 只 要 我 们 尽 可 能 让 事情 变 得 简单 ， 那 就 几乎 不 会 出 什么 错误 。 最 
低 要 求 是 请 确保 代码 可 以 通过 使 用 标准 的 Python 3 安装 方式 来 安装 。 如 果 还 有 别 的 安 
装 包 可 用 ,那么 可 以 将 它们 作为 可 选项 以 支持 额外 的 功能 。 

打包 和 发 布 涉及 C 语言 扩展 的 代码 则 会 变 得 复杂 得 多 。 在 第 15 章 有 关 C 语言 扩展 的 章 
节 中 谈 到 了 一 些 关 于 此 的 细节 。 具 体 请 参见 15.2 节 。 
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网 络 和 Web 编程 








本 章 涵 盖 了 在 网 络 应 用 和 分 布 式 应 用 中 使 用 Python 的 各 种 主题 。 主 题 可 划分 为 使 用 
Python 编写 客户 端 程序 来 访问 已 有 的 服务 ， 以 及 使 用 Python 实现 网 络 服务 端 程序 。 本 
章 也 提 到 了 编写 代码 使 多 个 解释 器 协同 工作 或 者 互相 通信 的 常见 技术 。 









































11.1 以 客户 端的 形式 同 HTTP 服务 交互 


11.1.1 问题 

我 们 需要 以 客户 端的 形式 通过 HTTP 协议 访问 多 种 服务 。 比 如 ， 下 载 数 据 或 者 同一 个 
基于 REST 的 API 进行 交互 。 

11.1.2 解决 方案 


对 于 简单 的 任务 来 说 , 使 用 urllib.request 模块 通常 就 足够 了 。 比 方 说 ,要 发 送 一 个 简单 
的 HTTP GET 请 求 到 远 端 服务 器 上 ， 可 以 这 样 做 : 


from urllib import request, parse 





























# Base URL being accessed 
url = 'http://httpbin.org/get' 


# Dictionary of query parameters (if any) 


parms = { 
'namel' : 'valuel', 
'name2' : 'value2' 


} 


# Encode the query string 
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querystring = parse.urlencode (parms) 
# Make a GET request and read the response 
u = request.urlopen(url+'?' + querystring) 


resp = u.read() 


如 果 需 要 使 用 POST 方法 在 请 求 主体 (request body) 中 发 送 查 询 参数 ， 可 以 将 参数 编 


人 码 后 作为 可 选 参数 提供 给 urlopen0 函 数 ， 就 像 这 样 : 


from urllib import request, parse 


# Base URL being accessed 
url = 'http://httpbin.org/post' 


# Dictionary of query parameters (if any) 


parms = { 
'namel' : 'valuel', 
"name2' : 'value2' 


# Encode the query string 
querystring = parse.urlencode (parms) 


# Make a POST request and read the response 
u = request.urlopen(url, querystring.encode('ascii')) 


resp = u.read() 


如 果 需 要 在 发 出 的 请 求 中 提供 一 些 自 定义 的 HTTP 头 ， 比 如 修改 user-agent 字段 ,那么 
可 以 创建 一 个 包含 字段 值 的 字典 ,并 创建 一 个 Request 实例 然后 将 其 传 给 urlopen(). 2 











例如 下 : 


from urllib import request, parse 


# Extra headers 
headers = { 
'User-agent' : 'none/ofyourbusiness', 


"Spam' : 'Eggs' 
req = request.Request (url, querystring.encode('ascii'), headers=headers) 
# Make a request and read the response 


u = request.urlopen (req) 
resp = u.read() 


如 果 需 要 交互 的 服务 比 上 面 的 例子 都 要 复杂 ， 也 许 应 该 去 看 看 requests Æ (http://pypi. 
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python.org/pypi/requests )。 比 如 ， 下 面 这 个 示例 采用 requests 库 重 新 实现 了 上 面 的 
操作 : 


import requests 





# Base URL being accessed 
url = 'http://httpbin.org/post' 
# Dictionary of query parameters (if any) 


parms = { 
"namel' : 'valuel', 
"name2' : 'value2' 


# Extra headers 
headers = { 
'User-agent' : 'none/ofyourbusiness', 


"Spam' : 'Eggs' 


resp = requests.post (url, data=parms, headers=headers) 


# Decoded text returned by the request 
text = resp.text 


关于 requests 库 , 一 个 值得 一 提 的 特性 就 是 它 能 以 多 种 方式 从 请 求 中 返回 响应 结果 的 内 
容 。 从 上 面 的 代码 来 看 ，resp.text 带 给 我 们 的 是 以 Unicode 解码 的 响应 文本 。 但 是 ， 如 
果 去 访问 resp.content， 就 会 得 到 原始 的 二 进 制 数据 。 另 一 方面 ， 如 果 访 问 respjson， 那 
么 就 会 得 到 ISON 格式 的 响应 内 容 。 


下 面 这 个 示例 利用 requests 库 来 发 起 一 个 HEAD 请 求 ， 并 从 响应 中 提取 出 一 些 HTTP 
头 数据 的 字段 : 


import requests 











resp = requests.head('http://www.python.org/index.html') 


status = resp.status_code 

last_modified = resp.headers['last-modified'] 
content_type = resp.headers['content-type'] 
content_length = resp.headers['content-length"] 


下 面 的 示例 使 用 requests 库 通 过 基本 的 认证 在 Python Package Index ( 也 就 是 pypi ) 上 
执行 了 一 个 登录 操作 : 


import requests 























AK 
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resp = requests.get ('http://pypi.python.org/pypi?:action=login', 
auth=('user', 'password') 


下 面 的 示例 使 用 requests 库 将 第 一 个 请 求 中 得 到 的 HTTP cookies 传递 给 下 一 个 请 求 : 


import requests 


# First request 


respl = requests.get (url) 


# Second requests with cookies received on first requests 
resp2 = requests.get (url, cookies=respl.cookies) 











最 后 但 也 同样 重要 的 是 ， 下 面 的 例子 使 用 requests 库 来 实现 内 容 的 上 传 : 
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import requests 
url = 'http://httpbin.org/post' 
files = { 'file': ('data.csv', open('data.csv', 'rb')) } 


r = requests.post (url, files=files) 


1.3 讨论 





对 于 确实 很 简单 的 HTTP 客户 端 代码 ,通常 使 用 内 建 的 urllib 模块 就 足够 了 。 但 是 ， 如 























y 


要 做 的 不 仅仅 只 是 简单 的 GET 或 POST 请 求 ， 那 就 真 的 不 能 再 依赖 它 的 功能 了 。 





这 时 候 就 是 第 三 方 模块 比如 requests 大 显 身手 的 时 候 了 。 

举 个 例子 ， 如 果 我 们 决定 坚持 使 用 标准 的 程序 库 而 不 考虑 像 requests 这 样 的 第 三 方 库 ， 
那么 也 许 就 不 得 不 使 用 底层 的 http.client 模块 来 实现 自己 的 代码 。 比 方 说 ， 下 面 的 代码 
展示 了 如 何 执行 一 个 HEAD 请 求 : 

















from http.client import HTTPConnection 
from urllib import parse 


c = HTTPConnection('www.python.org', 80) 
c.request ('HEAD', '/index.html') 


resp = c.getresponse () 


print ('Status', resp.status) 
for name, value in resp.getheaders(): 
print (name, value) 





同样 地 ， 如 果 必 须 编 写 涉 及 代理 、 认 证 cookies 以 及 其 他 一 些 细节 方面 的 代码 ， 那 么 


使 月 





上 的 认证 : 


H urllib 就 显得 特别 别扭 和 呢 嗪 。 比 方 说 ,下 面 这 个 示例 实现 在 Python package index 
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import urllib. request 


auth = urllib. request .HTTPBasicAuthHandler () 
auth.add_password('pypi', 'http://pypi.python.org', 'username', 'password') 
opener = urllib. request. build_opener (auth) 


r = urllib.request.Request ('http://pypi.python.org/pypi?:action=login') 
u = opener.open (r) 
resp = u.read() 


# From here. You can access more pages using opener 


坦白 说 ， 所 有 这 些 操作 在 requests 库 中 都 变 得 简单 得 多 。 

在 开发 过 程 中 测试 HTTP 客户 端 代码 常常 是 很 邻 人 诅 形 的 ， 因 为 所 有 环 手 的 细节 问题 
都 需要 考虑 (例如 cookies, AIE, HTTP 头 、 编 码 方式 等 )。 要 完成 这 些 任务 ,考虑 使 
用 httpbin 服务 (http:/httpbin.org )。 这 个 站 点 会 接收 发 出 的 请 求 ， 然 后 以 JSON 的 形式 
将 响应 信息 回 传 回来 。 下 面 是 一 个 交互 式 的 例子 : 


>>> import requests 





























>>> r = requests.get ('http://httpbin.org/get ?name=Daveén=37', 
headers = { 'User-agent': 'goaway/1.0' }) 
>>> resp = r.json 
>>> resp['headers'] 
{'User-Agent': 'goaway/1.0', 'Content-Length': '', 'Content-Type': '', 
"Accept-Encoding': 'gzip, deflate, compress', 'Connection!': 
"keep-alive', 'Host': 'httpbin.org', 'Accept': '*/*'} 
>>> resp['args'] 
{'name': 'Dave', 'n': '37'} 
>>> 


在 要 同一 个 真正 的 站 点 进行 交互 前 , 先 在 httpbin.org 这 样 的 网 站 上 做 实验 常常 是 可 取 
的 办 法 。 尤 其 是 当 我 们 面 对 3 次 登录 失败 就 会 关闭 账户 这 样 的 风险 时 尤为 有 用 (不 要 
尝试 自己 编写 HTTP 认证 客户 端 来 登录 你 的 银行 账户 )。 

尽管 本 节 没 有 涉及 ，requests 库 还 对 许多 高 级 的 HTTP 客户 端 协 议 提供 了 支持 ， 比 如 
OAuth. requests 模块 的 文档 ( http://docs.python-requests.org ) 质量 很 高 ( 坦白 说 比 在 这 
短 短 一 节 的 篇 幅 中 所 提供 的 任何 信息 都 好 )， 可 以 参考 文档 以 获得 更 多 的 信息 。 























11.2 创建 一 个 TCP 服务 器 


11.2.1 ”问题 
我 们 想 实现 一 个 通过 TCP 协议 同 客户 端 进行 通信 的 服务 器 。 
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11.22 解决 方案 


创建 TCP 服务 器 的 一 种 简单 方式 就 是 利用 socketserver 库 。 比 如 ， 下 面 是 一 个 简单 的 
echo 服务 示例 : 


from socketserver import BaseRequestHandler, TCPServer 








class EchoHandler (BaseRequestHandler): 
def handle (self): 
print ('Got connection from', self.client_address) 
while True: 
msg = self.request.recv (8192) 
if not msg: 
break 


self.request.send (msg) 


if name == ' main ': 
serv = TCPServer(('', 20000), EchoHandler) 


serv.serve forever () 


在 这 份 代码 中 , 我们 定义 了 一 个 特殊 的 处 理 类 ， 它 实现 了 一 个 handle() 方 法 来 服务 于 客 
户 端的 连接 。 这 里 的 request 属性 就 代表 着 底层 的 客户 端 socket, Mi client_address 中 包 
含 了 客户 端的 地 址 。 


要 测试 这 个 服务 端 程序 ， 首 先 运行 这 个 脚本 ， 然 后 打开 另 一 个 Python 进程 并 将 其 连接 
到 服务 端 上 : 


>>> from socket import socket, AF_INET, SOCK_STREAM 
>>> s = socket (AF_INET, SOCK_STREAM) 

>>> s.connect (('localhost', 20000) ) 

>>> s.send(b'Hello') 

















>>> s.recv (8192) 

b'Hello! 
在 许多 情况 下 ， 定 义 一 个 类 型 稍 有 不 同 的 处 理 类 可 能 会 更 加 简单 。 下 面 的 示例 使 用 
StreamRequestHandler 作为 基 类 ， 给 底层 的 socket 加 上 了 文件 类 型 的 接口 : 


from socketserver import StreamRequestHandler, TCPServer 





class EchoHandler (StreamRequestHandler): 
def handle (self): 
print ('Got connection from', self.client_address) 
# self.rfile is a file-like object for reading 
for line in self.rfile: 





网 络 和 Web 编程 451 





# self.wfile is a file-like object for writing 
self.wfile.write (line) 

if name == ' main ': 

serv = TCPServer(('', 20000), EchoHandler) 


serv.serve forever () 





11.2.3 iit 

socketserver 模块 使 得 创建 简单 的 TCP 服务 器 相对 来 说 变 得 容易 了 许多 。 但 是 ， 应 该 要 注 
意 的 是 ， 默 认 情 况 下 这 个 服务 器 是 单线 程 的 ， 一 次 只 能 处 理 一 个 客户 端 。 如 果 想 处 理 多 
个 客户 端 ， 可 以 实例 化 ForkingTCPServer 或 者 ThreadingTCPServer 对 象 。 示 例如 下 : 

















from socketserver import ThreadingTCPServer 


if name == ' main 


serv = ThreadingTCPServer(('', 20000), EchoHandler) 


serv.serve forever () 


ZUR AAG a8 19 [al LE FE IEP TE EP EE Fe EE EE FP 
线程 。 但 是 允许 连接 的 客户 端 数量 是 没有 上 限 的 ， 因 此 一 个 怀 有 恶意 的 黑客 可 能 会 同 
时 发 起 海量 的 连接 使 你 的 服务 器 挂 掉 。 

如 果 需 要 考虑 这 个 因素 ， 则 可 以 创建 一 个 预先 分 配 好 的 工作 者 线程 或 进程 池 。 要 做 到 
这 一 点 ， 我 们 首先 创建 一 个 普通 的 ( 非 多 线程 /多 进程 ) 服务 器 实例 ， 但 是 之 后 在 多 个 
线程 中 调用 serve_forever0 方 法 。 示 例如 下 : 











已 














if name == ' main ': 





from threading import Thread 
NWORKERS = 16 
serv = TCPServer(('', 20000), EchoHandler) 
for n in range (NWORKERS) : 
t = Thread (target=serv.serve_forever) 
t.daemon = True 
t.start () 


serv.serve forever () 


一 般 来 说 ，TCPServer 在 实例 化 时 就 会 绑 定 并 激活 底层 的 socket。 但 是 ， 有 时 候 我 们 
可 能 会 想 通 过 设 定 socket 选项 来 调整 底层 socket 的 行为 。 要 做 到 这 一 点 ， 可 以 提供 
bind_and_activate=False 参数 ， 就 像 这 样 : 








if name == ' main ': 


serv = TCPServer(('', 20000), EchoHandler, bind _and_activate=False) 
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# Set up various socket options 
serv.socket.setsockopt (socket .SOL_SOCKET, socket.SO_REUSEADDR, True) 
# Bind and activate 

serv.server bind() 

serv.server activate () 


serv.serve forever () 





上 面 给 出 的 socket 选项 实际 上 是 一 种 非常 常见 的 设置 。 它 允许 服务 器 重新 对 之 前 使 用 
过 的 端口 号 进行 绑 定 。 由 于 这 个 设置 实在 是 太 常 用 了 ， 因 此 在 TCPServer 类 中 也 提供 
了 一 个 完成 相同 功能 的 类 变量 ， 在 实例 化 服务 需 之 前 设 定 它 即 可 ， 如 下 所 示 : 









































if name == ' main ': 





TCPServer.allow reuse address = True 
serv = TCPServer(('', 20000), EchoHandler) 


serv.serve forever () 





在 这 个 解决 方案 中 , 我 们 展示 了 两 个 不 同 的 基 类 ( BaseRequestHandler #11 StreamRequesthandler )。 
StreamRequestHandler 类 实际 上 要 更 灵活 一 些 , 而 且 可 以 通过 指定 额外 的 类 变量 来 提供 
一 些 功 能 。 比 如 : 


import socket 





[a 





class EchoHandler (StreamRequestHandler): 
# Optional settings (defaults shown) 


timeout = 5 # Timeout on all socket operations 
rbufsize = -1 # Read buffer size 

wbufsize = 0 # Write buffer size 

disable nagle_algorithm = False # Sets TCP_NODELAY socket option 


def handle (self): 
print ('Got connection from', self.client_address) 
try: 
for line in self.rfile: 
# self.wfile is a file-like object for writing 
self.wfile.write (line) 
except socket.timeout: 
print ('Timed out!') 


最 后 ， 应 该 要 指出 的 是 大 部 分 Python 中 的 高 级 网 络 模块 (例如 HTTP, XML-RPC 等 ) 
都 是 在 socketserver 的 功能 之 上 构建 的 。 也 就 是 说 ， 直 接 使 用 socket 库 来 实现 服务 器 也 
并 不 会 太 困 难 。 下 面 这 个 简单 的 示例 就 是 直接 通过 socket 来 编写 服务 器 程序 : 


from socket import socket, AF INET, SOCK STREAM 















































def echo handler (address, client sock): 
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print ('Got connection from {}'. format (address) ) 
while True: 
msg = client_sock.recv (8192) 
if not msg: 
break 
client_sock.sendall (msg) 
client_sock.close() 


def echo_server (address, backlog=5): 
sock = socket (AF_INET, SOCK STREAM) 
sock. bind (address) 
sock. listen (backlog) 
while True: 
client_sock, client_addr = sock.accept () 
echo_handler(client_addr, client _sock) 


if name == ' main_': 
echo_server(('', 20000)) 





11.3 创建 一 个 UDP 服务 器 


11.3.1 问题 
我 们 想 实现 一 个 采用 UDP 协议 同 客户 端 进行 通信 的 服务 器 。 


11.3.2 ”解决 方案 


E] TCP 一 样 ， 利 用 socketserver 库 也 能 很 容易 地 创建 出 UDP 服务 器 。 比 如 ， 下 面 有 一 
个 简单 的 时 间 服 务 器 程序 : 


from socketserver import BaseRequestHandler, UDPServer 














import time 


class TimeHandler (BaseRequestHandler): 
def handle (self): 
print ('Got connection from', self.client_address) 
# Get message and client socket 
msg, sock = self.request 
resp = time.ctime() 


sock.sendto(resp.encode('ascii'), self.client_address) 


if name == ' main_': 
serv = UDPServer(('', 20000), TimeHandler) 


serv.serve_ forever () 








AK 
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同上 一 节 类 似 , 这 里 需要 定义 一 个 特殊 的 处 理 类 ， 其 中 要 实现 一 个 handle0 方 法 来 处 理 
客户 端的 连接 。 这 里 的 request 属性 是 一 个 元 组 ， 包 含 了 这 个 服务 器 收 到 的 数据 报 以 及 
代表 底层 的 socket 对 象 。client_address 包含 的 是 客户 端的 地 址 。 


要 测试 这 个 服务 器 程序 ， 先 运行 上 面 的 脚本 ， 然 后 另外 打开 一 个 Python 进程 并 向 服务 
端 程序 发 送 消息 : 


>>> from socket import socket, AF_INET, SOCK_DGRAM 
>>> s = socket (AF_INET, SOCK _DGRAM) 

>>> s.sendto(b'', ('localhost', 20000) 

0 

>>> s.recvfrom(8192) 

(b'Wed Aug 15 20:35:08 2012', ('127.0.0.1', 20000) 
>>> 














11.3.3 ”讨论 

一 个 典型 的 UDP 服务 器 程序 会 接收 到 发 自 客户 端的 数据 报 ( 消息 ) 以 及 客户 端的 地 址 。 
如 果 服 务 端 要 响应 请 求 ， 它 就 发 回 一 个 数据 报 给 客户 端 。 对 于 数据 报 的 发 送 和 传输 ， 
应 该 使 用 socket 对 象 的 sendto0 和 recvfrom() 方 法 。 尽 管 传 统 的 snd0 和 recv0 方 法 也 能 
工作 , 但 是 在 UDP 通信 中 前 面 两 种 方法 更 为 常用 一 些 。 


由 于 UDP 通信 底层 不 需要 建立 连接 ， 因 此 UDP 服务 器 常常 比 TCP 服务 器 要 容易 编写 
得 多 。 但 是 同时 UDP 也 是 不 可 靠 的 ( 例如， 由 于 没有 建立 连接 ， 消 息 可 能 会 丢失 )。 
因此 ， 如 何 处 理 消息 丢失 的 任务 就 交 给 了 你 自己 。 这 个 主题 超出 了 本 书 的 范围 ， 但 是 
如 果 可 靠 性 对 于 你 的 程序 来 说 很 重要 ， 一 般 来 说 就 要 引入 序列 号 、 重 传 、 超 时 以 及 其 
他 的 机 制 来 确保 传输 的 可 靠 性 。UDP 常用 在 对 可 靠 性 传输 要 求 不 那么 高 的 应 用 中 。 例 
如 ， 在 类 似 多 媒体 流 应 用 以 及 游戏 中 常会 用 到 UDP， 因 为 在 这 类 应 用 中 根本 不 会 倒退 
回去 试图 重 传 某 个 丢失 的 数据 包 (程序 会 简单 地 忽略 丢弃 的 包 ， 然 后 继续 运行 )。 
UDPServer 类 也 是 单线 程 的 , 这 意味 着 它 一 次 只 能 处 理 一 个 请 求 。 在 实践 中 , 这 个 问题 
与 TCP 连接 相 比 要 小 很 多 。 但 是 如 果 要 实现 并 发 操作 ， 可 以 实例 化 ForkingUDPServer 
或 者 ThreadingUDPServer: 







































































from socketserver import ThreadingUDPServer 


if name _ == ' main ' 
serv = ThreadingUDPServer(('',20000), TimeHandler) 


serv.serve forever () 


直接 通过 socket 来 实现 UDP 服务 器 同样 也 不 复杂 。 示 例如 下 : 


from socket import socket, AF_INET, SOCK DGRAM 
import time 
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def time server (address): 
sock = socket (AF INET, SOCK DGRAM) 
sock. bind (address) 
while True: 
msg, addr = sock.recvfrom(8192) 
print ('Got message from', addr) 
resp = time.ctime() 
sock.sendto(resp.encode('ascii'), addr) 
if name == '_main_': 


time_server(('', 20000)) 





11.4 M CIDR 地 址 中 生成 IP 地 址 的 范围 


11.4.1 问题 
我 们 有 一 个 类 似 于 “123.45.67.89/27” 这 样 的 CIDR (Classless InterDomain Routing ) 网 


络 地 址 ， 我 们 想 生 成 由 该 地 址 可 表示 的 全 部 IP 地 址 的 范围 ( 例如,“123.45.67.64”， 
“123.45.67.65” ..., “123.45.67.95”), 


11.4.2 ”解决 方案 
利用 ipaddress 模块 可 轻松 处 理 这 样 的 计算 。 示 例如 下 : 


>>> import ipaddress 

>>> net = ipaddress.ip network('123.45.67.64/27') 
>>> net 

IPv4Network ('123.45.67.64/27') 


>>> for a in net: 








print (a) 
23.4 
23.4 
23.4 


23.4 
23.4 


.67.64 
.67.65 
“615606 
.67.67 
.67.68 


ann on wom 








23.45.67.95 
>>> 


>>> net6 = ipaddress.ip network ('12:3456:78:90ab:cd:ef01:23:30/125') 


>>> net6 





Ak 
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IPv6Network ('12:3456:78:90ab:cd:ef01:23:30/125') 


>>> for a in net6: 























print (a) 
2:3456:78:90ab:cd:ef01:23:30 
2:3456:78:90ab:cd:ef01:23:31 
2:3456:78:90ab:cd:ef01:23:32 
2:3456:78:90ab:cd:ef01:23:33 
2:3456:78:90ab:cd:ef01:23:34 
2:3456:78:90ab:cd:ef01:23:35 
2:3456:78:90ab:cd:ef01:23:36 
2:3456:78:90ab:cd:ef01:23:37 

>>> 


network 对 象 同样 也 支持 像 数组 那样 的 索引 操作 。 示 例如 下 : 


>>> net.num_addresses 

32 

>>> net [0] 

Pv4Address ('123.45.67.64') 
>>> net [1] 
Pv4Address ('123.45.67.65') 
>>> net [-1] 
Pv4Address ('123.45.67.95') 
>>> net [-2] 
Pv4Address ('123.45.67.94') 
>>> 


此 外 ， 还 可 以 执行 检查 成 员 归 属 的 操作 : 


>>> a = ipaddress.ip_address('123.45.67.69') 


>>> a in net 





























True 

>>> b = ipaddress.ip_address ('123.45.67.123') 
>>> b in net 

False 

>>> 


IP 地 址 加 上 网 络 号 可 以 用 来 指定 一 个 IP 接口 (interface )。 比 如 : 


>>> inet = ipaddress.ip interface('123.45.67.73/27') 
>>> inet.network 

IPv4Network ('123.45.67.64/27') 

>>> inet.ip 

IPv4Address ('123.45.67.73') 

>>> 
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11.4.3 讨论 

ipaddress 模块 中 有 一 些 类 可 用 来 表示 IP 地 址 、 WTR BED o 如 果 要 编写 代码 
以 某 种 方式 来 操作 网 络 地 址 的 话 〈 比如 解析 、 打 印 、 验 证 等 )， 这 就 显得 非常 有 帮 
助 了 。 


需要 注意 的 是 ，ipaddress 模块 同 其 他 网 络 相关 的 模块 比如 socket 库 之 间 的 交互 是 有 局 
限 性 的 。 特 别 是 ， 通常 不 能 用 IPv4Address 的 实例 作为 地 址 字符 串 的 替代 。 相 反 ， 必 须 
显 式 地 通过 str() 将 其 转换 为 字符 串 。 示 例如 下 : 

>>> a = ipaddress.ip address('127.0.0.1') 

>>> from socket import socket, AF INET, SOCK STREAM 


>>> s = socket (AF INET, SOCK STREAM) 


>>> s.connect ((a, 8080)) 




















Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't convert 'IPv4Address' object to str implicitly 
>>> s.connect ((str(a), 8080)) 
>>> 


参阅 “ipaddress 模块 介绍 ”( http://docs.python.org/3/howto/ipaddress.html ) 一 文 ， 以 
poner \ 和 高 级 用 法 的 示例 。 





11.5 创建 基于 REST 风格 的 简单 接口 


11.5.1 问题 

我 们 希望 通过 一 个 基于 REST 风格 的 简单 接口 来 对 程序 实现 远程 控制 或 交互 。 但 是 ， 
我 们 又 不 想 为 此 去 安装 一 个 成 熟 的 Web 编程 框架 。 

11.5.2 解决 方案 


构建 基于 REST 风格 的 接口 最 简单 的 方式 之 一 就 是 根据 WSGI 规范 (在 PEP 3333 中 描 
述 ， 地 址 为 http://www.python.org/dev/peps/pep-3333 ) 创建 一 个 小 型 的 库 。 示 例如 下 : 












































# resty.py 
import cgi 
def notfound 404(environ, start response): 


start_response('404 Not Found', [ ('Content-type', 'text/plain') ]) 
return [b'Not Found'] 
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class PathDispatcher: 
def init (self): 
self.pathmap = { } 


def call (self, environ, start_response) : 
path = environ['PATH_INFO'] 
params = cgi.FieldStorage(environ['wsgi.input'], 
environ=environ) 
method = environ['REQUEST METHOD'] . lower () 
environ['params'] = { key: params.getvalue(key) for key in params } 
handler = self.pathmap.get ( (method, path), notfound_404) 
return handler(environ, start_response) 


def register(self, method, path, function): 
self.pathmap[method.lower(), path] = function 
return function 








要 使 用 这 个 调度 器 ， 只 用 编写 不 同 的 处 理 函 数 即 可 ， 比 如 : 


import time 


_hello resp = '''\ 
<html> 
<head> 
<title>Hello {name}</title> 
</head> 
<body> 
<hl>Hello {name}!</h1> 
</body> 
</html>'''! 


def hello_world(environ, start_response): 
start_response('200 OK', [ ('Content-type', 'text/html') ] 
params = environ['params'] 
resp = hello_resp. format (name=params.get ('name') ) 
yield resp.encode('utf-8') 


_localtime_resp = '''\ 

<?xml version="1.0"2?> 

<time> 
<year>{t.tm_year}</year> 
<month>{t.tm_mon}</month> 
<day>{t.tm_mday}</day> 
<hour>{t.tm_hour}</hour> 
<minute>{t.tm_min}</minute> 


<second>{t.tm_sec}</second> 
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</time>''"! 


def localtime (environ, start_response): 
start_response('200 OK', [ ('Content-type', ‘application/xml') ]) 
resp = _localtime_resp. format (t=time.localtime() ) 
yield resp.encode('utf-8"') 


if name == ' main ': 





from resty import PathDispatcher 
from wsgiref.simple server import make server 


# Create the dispatcher and register functions 
dispatcher = PathDispatcher () 
dispatcher.register('GET', '/hello', hello_world) 


dispatcher.register('GET', '/localtime', localtime) 


# Launch a basic server 

httpd = make_server('', 8080, dispatcher) 
print ('Serving on port 8080...") 
httpd.serve_forever () 








要 测试 这 个 服务 程序 ， 可 以 通过 浏览 器 或 者 使 用 urllib 来 完成 交互 。 示 例如 下 : 


>>> u = urlopen('http://localhost:8080/hello?name=Guido') 
>>> print (u.read() .decode('utf-8')) 
<html> 
<head> 
<title>Hello Guido</title> 
</head> 
<body> 
<hl>Hello Guido!</h1> 
</body> 
</html> 
>>> u = urlopen('http://localhost:8080/localtime') 


>>> print (u.read() .decode('utf-8')) 





<?xml version="1.0"?> 

<time> 
<year>2012</year> 
<month>11</month> 
<day>24</day> 
<hour>14</hour> 
<minute>49</minute> 
<second>17</second> 

</time> 

>>> 
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11.5.3 讨论 

在 基于 REST 风格 的 接口 中 ， 一 般 来 说 就 是 在 编写 响应 常见 HTTP 请 求 的 程序 。 但 是 ， 
与 一 个 成 熟 的 网 站 不 同 ， 通 常 我 们 只 是 在 来 回 推送 数据 。 这 个 数据 可 能 会 以 各 种 标准 
的 格式 进行 编码 ， 比 如 XML. JSON 或 者 CSV。 尽 管 看 起 来 似乎 微不足道 ， 但 是 以 这 
种 方式 提供 API 对 于 各 种 各 样 的 应 用 程序 都 是 非常 有 用 的 。 

比如 ， 长 时 间 运 行 的 程序 可 能 会 用 REST 风格 的 API 来 实现 监控 或 诊断 功能 。 大 
数据 应 用 可 以 使 用 REST 风格 的 接口 来 构建 一 个 查询 /提取 数据 的 系统 。REST 甚 
至 可 以 用 来 控制 硬件 设备 ， 比 如 机 器 人 、 传 感 器 或 者 是 灯泡 。 此 外 ，REST API 在 
各 式 各 样 的 客户 端 编程 环境 中 都 得 到 了 很 好 的 文 持 ， 比 如 JavaScript, Android, iOS 
等 。 因 此 ， 有 了 这 样 的 接口 能 够 鼓励 人 们 开发 出 更 加 复杂 的 应 用 来 使 用 你 的 接口 
代码 。 


要 实现 一 个 简单 的 REST 风格 的 接口 ， 通 常 只 要 根据 Python 的 WSGI 标准 来 做 就 可 以 
了 。 标 准 库 是 支持 WSGI 的 ， 而 且 大 多 数 第 三 方 的 Web 框架 也 支持 。 因 此 ， 如 果 采 用 
WSGI 标准 的 话 ， 我 们 的 代码 使 用 起 来 将 变 得 非常 灵活 。 

在 WSGI 中 ， 应 用 程序 是 以 一 个 接受 如 下 调用 形式 的 可 调用 对 象 来 实现 的 : 


import cgi 




























































































def wsgi app (environ, start response): 


参数 environ 是 一 个 字典 ， 其 中 需要 包含 的 值 参 考 了 许多 Web 服务 器 比如 Apache 所 提 
供 的 CGI 接口 的 启发 。 要 提取 出 不 同 的 字段 ， 可 以 编写 这 样 的 代码 来 实现 : 
def wsgi_app (environ, start_response) : 
method = environ['REQUEST METHOD' ] 
path = environ['PATH_INFO'] 


# Parse the query parameters 




















params = cgi.FieldStorage(environ['wsgi.input'], environ=environ) 





示例 中 展示 了 一 些 常 见 的 值 。environ[REQUEST_METHOD'] 表 示 请 求 的 类 型 (例如 
GET., POST., HEAD 等 )。environ['PATH_INFO] 表 示 所 请 求 资源 的 路 径 。 调 用 
cgi.FieldStorage() 可 以 从 请 求 中 提取 出 所 提供 的 查询 参数 ， 并 将 它们 放 入 到 一 个 类 似 于 
字典 的 对 象 中 以 供 稍 后 使 用 。 

参数 start_response 是 一 个 函数 ， 必 须 调用 它 才 能 发 起 响应 。start_response 的 第 一 个 参 
数 是 HTTP 结果 状态 。 第 二 个 参数 是 一 个 元 组 序列 ， 以 (name, value) 这 样 的 形式 组 成 响 
应 的 HTTP 头 。 示 例如 下 : 
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def wsgi_app (environ, start_response) : 


start_response('200 OK', [('Content-type', 'text/plain')]) 








要 返回 数据 ， 满 足 WSGI 规范 的 应 用 程序 必须 返回 字 节 串 序 列 。 这 可 以 通过 使 用 一 个 
列表 来 完成 : 


def wsgi_app (environ, start_response) : 





start_response('200 OK', [('Content-type', 'text/plain')]) 
resp = [] 

resp.append(b'Hello World\n') 

resp.append (b'Goodbye! \n') 

return resp 


此 外 ， 也 可 以 使 用 yield 作为 替代 方案 : 


def wsgi_app (environ, start_response) : 





start_response('200 OK', [('Content-type', 'text/plain')]) 
yield b'Hello World\n' 
yield b'Goodbye!\n' 


ag SE ARMA] ce, ER TET 2 AR UAE SA EB I QAR h At CASAL GY , 
那 就 需要 先 将 其 编码 为 字 节 形式 。 当 然 了 ， 这 里 并 没有 要 求 返 回 的 结果 是 文本 ， 因 此 
可 以 轻松 编写 一 个 应 用 程序 来 生成 图 像 。 

尽管 遵循 WSGI 规范 的 应 用 程序 通常 都 被 定义 为 函数 ， 就 如 我 们 的 示例 那样 ， 但 是 类 
实例 同样 也 是 可 行 的 ， 只 要 它 实现 了 合适 的 _call_0 方 法 即 可 。 示 例如 下 : 


class WSGIApplication: 
def init (self): 



































def call (self, environ, start response) 


在 本 节 中 , 我 们 已 经 采用 这 种 技术 创建 了 PathDispatcher 类 。 这 个 调度 器 只 负责 管理 一 
个 字典 ， 用 来 将 方法 和 路 径 的 映射 关系 传递 给 处 理 函 数 ， 除 此 之 外 什么 都 不 做 。 当 有 
请 求 到 来 时 ， 提 取出 方法 和 路 径 然后 将 其 分 发 给 一 个 处 理 函 数 。 此 外 ， 任 何 查询 变量 
都 会 得 到 解析 并 放 和 人 到 字典 中 以 environ['params] 的 形式 保存 ( 这 个 步 又 非常 常见 ， 为 
了 避免 产生 大 量 重 复 的 代码 ， 在 调度 器 中 统一 处 理 是 很 有 意义 的 )。 

要 使 用 这 个 调度 器 ， 只 要 创建 一 个 实例 并 注册 各 种 基于 WSGI 风格 的 应 用 程序 函数 到 
调度 器 中 即 可 ， 就 像 本 节 示 例 中 的 那样 。 编 写 这 些 函 数 应 该 是 非常 直接 的 ， 只 要 遵循 
start_responseO 国 数 的 规则 并 且 以 字 节 串 作 为 输出 即 可 。 
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当 编写 这 样 的 函数 时 , 对 于 字符 串 模板 的 使 用 需要 特别 小 心 。 没 人 喜欢 和 一 堆 由 printo 
PRA. XML 以 及 各 式 各 样 的 格式 化 操作 杂 揉 在 一 起 的 代码 打交道 。 在 我 们 的 解决 方案 
中 ， 采 用 的 方式 是 定义 三 引号 式 的 字符 串 模 板 然后 在 内 部 使 用 。 这 种 方式 使 得 之 后 修 
改 输出 的 格式 变 得 更 加 简单 了 ( 只 要 修改 模板 即 可 ， 而 不 用 到 处 去 修改 代码 )。 

最 后 ,使 用 WSGI 的 一 个 重要 因素 就 是 实现 中 没有 任何 部 分 是 特定 于 某 个 具体 的 Web 
服务 器 的 。 这 正 是 WSGI 规范 所 代表 的 全 部 意义 一 一 由 于 WSGI 是 与 服务 器 以 及 框架 
无 关 的 ， 我 们 应 该 可 以 将 自己 的 应 用 程序 部 署 到 各 式 各 样 的 服务 器 之 上 。 在 本 节 中 ， 
可 以 使 用 下 面 的 代码 来 测试 : 


l. 


































































































if name _ == '_ main 





from wsgiref.simple_server import make_server 


# Create the dispatcher and register functions 
dispatcher = PathDispatcher () 


# Launch a basic server 
httpd = make_server('', 8080, dispatcher) 
print ('Serving on port 8080...') 


httpd.serve_forever () 


这 样 会 创建 出 一 个 简单 的 服务 器 ， 可 以 用 它 来 检查 我 们 的 实现 是 否 都 能 正常 工作 。 之 
后 ， 当 准备 好 将 应 用 的 规模 扩展 到 更 高 的 层次 时 ， 我 们 就 可 以 修改 实现 代码 让 它 工作 
在 某 个 特定 的 服务 右上 。 

WSGI 被 有 意 设计 为 功能 最 简化 的 规范 。 比 如 ， 它 不 提供 任何 类 似 认证 、cookies、 
重 定向 等 高 级 功能 的 支持 。 这 些 功 能 由 你 自己 实现 并 不 算 困 难 。 但 是 ， 如 果 想 得 到 
更 多 的 支持 ， 可 以 考虑 一 些 第 三 方 的 库 ， 比 如 WebOb ( http://webob.org ) 或 者 Paste 
( http://pythonpaste.org )。 


























11.6 利用 XML-RPC 实现 简单 的 远 端 过 程 调用 


11.6.1 问题 

我 们 希望 能 有 一 种 简单 的 方法 可 以 在 远 端 机 器 上 运行 的 Python 程序 中 执行 函数 或 
者 方法 。 

11.6.2 ”解决 方案 


也 许 实现 一 个 远 端 过 程 调用 机 制 最 简单 的 方式 就 是 使 用 XML-RPC 了 。 下 面 这 个 例子 
给 出 了 一 个 简单 的 服务 器 ， 其 中 实现 了 键 一 值 对 的 存储 : 
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from xmlrpc.server import SimpleXMLRPCServer 


class KeyValueServer: 
_rpc_methods_ = ['get', 'set', 'delete', 'exists', 'keys'] 
def init (self, address): 
self. data = {} 
self. serv = SimpleXMLRPCServer (address, allow_none=True) 
for name in self. rpc_methods_: 
self. _serv.register_function(getattr(self, name) ) 


def get (self, name): 
return self. data[name] 


def set(self, name, value): 
self. data[name] = value 


def delete(self, name): 
del self. data[name] 








def exists(self, name): 
return name in self. data 


def keys (self): 
return list (self. data) 


def serve forever(self): 


self. serv.serve forever () 





# Example 
if name == ' main_': 
kvserv = KeyValueServer(('', 15000) ) 


kvserv.serve forever () 








下 面 的 代码 展示 了 如 何 从 客户 端 远程 访问 服务 器 : 


>>> from xmlrpc.client import ServerProxy 

>>> s = ServerProxy('http://localhost:15000', allow_none=True) 
>>> s.set('foo', 'bar') 

>>> s.set('spam', [1, 2, 3]) 

>>> s.keys () 

{'spam', 'foo'] 

>>> s.get('foo') 


"bar! 





>>> s.get('spam') 
[le ey 31 
>>> s.delete('spam') 





AK 
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>>> s.exists('spam') 
False 
>>> 


11.6.3 iit 


要 配置 一 个 简单 的 远 端 过 程 调用 服务 ， 可 以 用 XML-RPC 来 轻松 实现 。 所 有 要 做 的 就 
是 创建 一 个 服务 器 实例 ， 通 过 register_function0 方 法 注册 处 理 函 数 ， 然 后 通过 
serve_forever() 方 法 加 载 即 可 。 本 节 给 出 的 示例 把 所 有 的 代码 集合 到 了 一 起 ， 将 这 些 步 
又 打包 到 了 一 个 类 中 ， 但 是 实际 上 并 没有 这 个 硬性 要 求 。 比 如 ， 我 们 可 以 创建 一 个 这 
































from xmlrpc.server import SimpleXMLRPCServer 
def add(x,y): 

return xty 
serv = SimpleXMLRPCServer(('', 15000)) 


serv.register_function (add) 


serv.serve forever () 











通过 XML-RPC 暴露 出 的 函数 只 能 处 理 几 种 特定 类 型 的 数据 ， 比 如 字符 串 、 数 字 、 列 
表 和 字典 。 至 于 其 他 类 型 的 数据 则 需要 做 进一步 的 研究 。 比 方 说 ， 如 果 通 过 XML-RPC 























传递 一 个 实例 ， 则 只 有 它 的 实例 字典 会 被 处 理 : 


>>> class Point: 
def init (self, x, y): 
self.x =x 


self.y =y 


>>> p = Point(2, 3) 
>>> s.set('foo', p) 
>>> s.get('foo') 
(EEE 2) Syl 3} 
>>> 


同样 地 ， 对 二 进 制 数据 的 处 理 也 和 我 们 期 望 的 方式 有 所 不 同 : 


>>> s.set('foo', b'Hello World') 
>>> s.get ('foo') 
<xmlrpc.client.Binary object at 0x10131d410> 








>>> „data 
b'Hello World' 
>>> 


作为 一 般 的 规则 , 不 应 该 将 XML-RPC 服务 作为 公有 API 其 露 给 外 部 世界 。 通常 ,最 
佳 应 用 场景 是 在 内 部 网 络 中 ， 我 们 可 以 编写 涉及 几 台 不 同 机 器 的 简单 的 分 布 式 应 用 
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XML-RPC 的 缺点 在 于 它 的 性 能 。SimpleXMLRPCServer 是 以 单线 程 来 实现 的 ， 尽 管 可 
以 通过 11.2 节 所 示 的 方法 配置 为 以 多 线程 方式 运行 ， 但 还 是 不 适合 用 来 扩展 大 型 的 应 
用 。 此 外 , 由 于 XML-RPC 会 将 所 有 的 数据 序列 化 为 XML 格式 ， 因 此 就 会 比 其 他 的 方 
法 要 慢 一 些 。 但 是 ， 这 种 编码 的 优势 在 于 许多 其 他 的 编程 语言 都 能 够 理解 。 使 用 
XML-RPC 的 话 ， 客 户 端 程序 就 可 以 采用 Python 之 外 的 语言 来 编写 ， 同 样 可 以 访问 你 
的 服务 。 

抛 开 XML-RPC 的 局 限 性 不 说 ， 如 果 需 要 以 快速 但 并 不 完善 (quick and dirty ) 的 方式 
实现 一 个 远 端 过 程 调用 系统 ,那么 了 解 一 下 XML-RPC 还 是 很 值得 的 。 很 多 时 候 简 单 
的 方案 就 已 经 足够 好 了 。 


11.7 ”在 不 同 的 解释 希 间 进行 通信 


11.7.1 问题 

我 们 正 运行 着 多 个 Python 解释 器 的 实例 ， 有 可 能 还 是 在 不 同 的 机 器 上 。 我 们 想 通过 消 
息 在 不 同 的 解释 器 之 间 交 换 数据 。 

11.7.2 ”解决 方案 


如 果 使 用 multiprocessing.connection 模块 ,那么 在 不 同 的 解释 器 之 间 实 现 通信 和 就 很 简 生 
了 。 下 面 是 一 个 实现 了 echo 服务 的 简单 示例 : 


from multiprocessing.connection import Listener 






































































































































过 








import traceback 


def echo client (conn): 
try: 
while True: 
msg = conn.recv() 
conn.send (msg) 
except EOFError: 
print ('Connection closed') 


def echo_server (address, authkey): 
serv = Listener(address, authkey=authkey) 
while True: 
try: 
client = serv.accept () 
echo_client (client) 
except Exception: 
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traceback.print_exc () 


echo_server(('', 25000), authkey=b'peekaboo') 


下 面 的 客户 端 连接 到 服务 器 上 并 发 送 各 种 消息 : 


>>> from multiprocessing.connection import Client 
>>> c = Client (('localhost', 25000), authkey=b'peekaboo') 
>>> c.send('hello') 

>>> c.recv() 

"hello! 

>>> c.send(42) 

>>> c.recv() 

42 

>>> c.send([1, 2, 3, 4, 5]) 

>>> c.recv() 

li; 2y 3p tp 5] 

>>> 


和 低级 的 socket 不 同 , 这 里 所 有 的 消息 都 是 完整 无 损 的 ( 每 个 由 send() 发 送 的 对 象 都 会 
通过 recv0 完 整地 接收 到 )。 此 外 ， 对 象 都 是 通过 pickle 来 进行 序列 化 的 。 因 此 ， 任 何 
同 pickle 兼容 的 对 象 都 可 以 在 连接 之 间 传 递 和 接收 。 


11.7.3 讨论 

有 许多 软件 包 和 库 都 实现 了 各 种 形式 的 消息 传递 ， 比 如 ZeroMQ 、Celery 等 。 作 为 备用 方 
案 ， 我 们 可 能 也 会 倾向 于 在 底层 的 socket 之 上 实现 一 个 消息 层 。 但 是 ， 有 时 候 我 们 只 想 要 
一 个 简单 的 解决 方案 。multiprocessing.connection 库 正 是 我 们 所 需要 的 一 一 只 需要 使 用 几 个 
简单 的 原 语 ( primitive )， 就 能 轻易 地 将 各 个 解释 器 联系 在 一 起 并 且 在 它们 之 间 交 换 消 息 。 
如 果 知 道 这 些 解释 器 会 运行 在 同一 台 机 器 上 ， 那 么 可 以 利用 网 络 作为 蔡 代 方案 ， 比 如 
UNIX 域 socket 或 者 Windows 上 的 命名 管道 。 要 通过 UNIX 域 socket 创建 连接 ， 只 要 
简单 地 将 地 址 改 为 文件 名 即 可 ， 示 例如 下 : 


s = Listener('/tmp/myconn', authkey=b'peekaboo') 


要 通过 Windows 命名 管道 创建 连接 ， 可 以 使 用 下 面 这 样 的 文件 名 : 


s = Listener(r'\\.\pipe\myconn', authkey=b'peekaboo') 


作为 一 般 的 规则 ， 不 应 该 使 用 multiprocessing 模块 来 实现 面向 公众 型 的 服务 。 传 递 给 
Client0 和 Listener() 的 参数 authkey 在 这 里 是 为 了 帮助 认证 连接 的 对 端 节 点 。 用 错误 的 
密 钥 来 建立 连接 会 产生 异常 。 此 外 ， 这 个 模块 最 好 适用 于 能 长 时 间 运 行 的 连接 ( 而 不 
是 大 量 的 短 连接 ) 例如， 两 个 解释 器 可 能 会 在 开始 的 时 候 建 立 一 条 连接 ， 然 后 在 整个 
过 程 中 都 保持 这 个 连接 的 活跃 。 




































































网 络 和 Web 编程 467 








如 果 需 要 对 连接 实现 更 多 的 底层 控制 , 那么 就 不 要 使 用 multiprocessing 模块 。 比 方 说 ， 
如 果 要 支持 超时 、 非 阻塞 VO 或 者 任何 类 似 的 特性 , 那么 最 好 使 用 另 一 个 不 同 的 库 或 者 
直接 在 socket 之 上 实现 这 些 特 性 。 
































11.8 实现 远 端 过 程 调用 


11.8.1 问题 

我 们 想 在 socket, multiprocessing.connection 或 者 ZeroMQ 这 样 的 消息 传递 层 之 上 实现 
简单 的 远 端 过 程 调用 (RPC )。 

11.8.2 解决 方案 

通过 将 函数 请 求 、 参 数 以 及 返回 值 用 pickle 进行 编码 ， 然 后 在 解释 器 之 间 传 递 编码 过 


的 pickle FH, RPC 是 很 容易 实现 的 。 下 面 的 示例 是 一 个 简单 的 RPC 处 理 例 程 ， 可 
以 将 其 纳入 到 一 个 服务 器 程序 中 使 用 。 


# rpcserver.py 





























import pickle 
class RPCHandler: 
def init (self): 


self. functions = { } 


def register _function(self, func): 


self. functions[func. name ] = func 


def handle connection(self, connection): 
try: 
while True: 
# Receive a message 
func_name, args, kwargs = pickle.loads (connection. recv() ) 
# Run the RPC and send a response 
try: 
r = self. functions [func_name] (*args, **kwargs) 
connection.send (pickle. dumps (r) ) 
except Exception as e: 
connection.send(pickle.dumps (e) ) 
except EOFError: 
pass 


要 使 用 这 个 处 理 例 程 ， 需 要 将 其 添加 到 一 个 消息 服务 器 中 。 这 里 我 们 可 以 有 多 种 选择 ， 
但 相 较 而 言 multiprocessing 库 是 一 种 简单 的 选择 。 下 面 是 RPC 服务 器 的 示例 : 
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from multiprocessing.connection import Listener 
from threading import Thread 


def rpc_server(handler, address, authkey): 
sock = Listener(address, authkey=authkey) 
while True: 
client = sock.accept () 
t = Thread(target=handler.handle_connection, args=(client, )) 
t.daemon = True 
t.start () 


# Some remote functions 
def add(x, y): 
return x + y 


def sub(x, y): 
return x - y 


# Register with a handler 
handler = RPCHandler() 
handler. register_function (add) 
handler. register_function (sub) 


# Run the server 
rpc_server(handler, ('localhost', 17000), authkey=b'peekaboo') 


要 从 远 端 的 客户 端 中 访问 这 个 服务 器 ,需要 创建 一 个 相应 的 RPC 代理 类 来 转发 请 求 。 示 
例如 下 : 


import pickle 





class RPCProxy: 
def init (self, connection): 
self. connection = connection 
def getattr (self, name): 
def do_rpc(*args, **kwargs): 
self. connection.send(pickle.dumps((name, args, kwargs))) 
result = pickle.loads (self. connection. recv() ) 
if isinstance (result, Exception) : 
raise result 
return result 
return do_rpc 


要 使 用 这 个 代理 类 ， 只 需要 用 它 来 包装 发 送 给 服务 器 端的 连接 即 可 。 示 例如 下 : 


>>> from multiprocessing.connection import Client 





>>> c = Client (('localhost', 17000), authkey=b'peekaboo') 
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>>> proxy = RPCProxy(c) 

>>> proxy.add(2, 3) 

5 

>>> proxy.sub(2, 3) 

=. 

>>> proxy.sub([1, 2], 4) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "rpcserver.py", line 37, in do_rpc 

raise result 
TypeError: unsupported operand type(s) for -: 'list' and ‘int' 
>>> 


应 该 指出 的 是 ， 有 许多 消息 处 理 层 ( 比如 multiprocessing ) 已 经 用 pickle 将 数据 做 了 序 
列 化 处 理 。 如 果 是 这 样 的 话 ， 可 以 去 掉 对 pickle.dumps0 和 pickle.loadsO 的 调用 。 


11.8.3 讨论 
RPCHandler 和 RPCProxy 类 的 总 体 思想 相对 来 说 都 是 比较 简单 的 。 如 果 客 户 端 想 调用 
一 个 远 端 函数 ， 比 如 foo(1，2, z=3)， 代 理 类 就 创建 出 一 个 包含 了 函数 名 和 参数 的 元 组 
(foo', (1, 2), {2:3})。 这 个 元 组 经 pickle 序列 化 处 理 后 通过 连接 发 送出 去 。 这 些 步 又 都 
是 在 RPCProxy 类 getattr_0 方 法 返回 的 闭 包 do_rpcO 中 执行 的 。 服 务 需 端 接收 到 消 
息 后 执行 反 序列 化 处 理 ， 然 后 检查 函数 名 是 否 已 经 注册 过 了 。 如 果 是 注册 过 的 函数 ， 
就 用 给 定 的 参数 调用 该 函数 。 把 得 到 的 结果 (或 者 异常 ) 进行 pickle 序列 化 处 理 然后 
再 发 送 回去 。 

我 们 给 出 的 示例 依赖 于 multiprocessing 模块 来 完成 通信 。 但 是 ， 这 种 方法 也 适用 于 任何 
其 他 的 消息 通信 系统 。 比 如 ， 如 果 想 在 ZeroMQ 上 实现 RPC， 只 要 把 连接 对 象 用 适当 
的 ZeroMQ socket 对 象 取代 即 可 。 


关于 pickle 的 可 靠 性 ， 需 要 重点 考虑 安全 方面 的 问题 ( 因为 聪明 的 黑客 可 以 创建 出 特 
定 的 消息 ,使 得 在 执行 反 序 列 化 处 理 时 得 以 执行 任意 的 函数 )。 特 别 是 ， 绝 对 不 能 允许 
非 受信 任 或 者 非 授权 的 客户 端 执行 RPC 操作 ， 我 们 肯定 不 希望 对 互联 网 上 的 任何 机 器 
都 敞开 大 门 。 本 节 提 到 的 技术 应 该 只 在 位 于 防火 墙 之 后 的 内 部 网 络 中 使 用 ， 不 要 暴露 
给 外 部 世界 。 

作为 pickle 的 替代 方案 ， 我 们 可 能 会 考虑 使 用 JSON 、XML 或 一 些 其 他 的 数据 编码 来 
完成 序列 化 操作 。 比 如 ， 如 果 用 jsonloads0 和 json.dumps0 来 取代 本 节 中 的 pickleloads0 
和 pickle.dumps0) 的 话 ， 那 么 就 可 以 轻松 应 用 JSON 编码 了 。 示 例如 下 : 


# jsonrpcserver.py 































































































































































































import json 


class RPCHandler: 





470 第 11 章 


def init (self): 


self. functions = { } 


def register _function(self, func): 


self. functions[func. name |] = func 


def handle connection(self, connection): 
try: 
while True: 
# Receive a message 
func_name, args, kwargs = json.loads (connection. recv()) 
# Run the RPC and send a response 
try: 
r = self. functions [func_name] (*args, **kwargs) 
connection.send(json.dumps (r) ) 
except Exception as e: 
connection.send(json.dumps (str (e) )) 
except EOFError: 
pass 


# jsonrpcclient.py 
import json 


class RPCProxy: 
def init (self, connection): 
self. connection = connection 
def getattr (self, name): 
def do_rpc(*args, **kwargs): 
self. connection.send(json.dumps((name, args, kwargs) ) ) 
result = json.loads (self. connection. recv() ) 
return result 


return do_rpc 








在 实现 RPC 时 一 个 比较 复杂 的 问题 是 对 待 异常 应 该 如 何 处 理 ? 最 基本 的 要 求 是 如 果 调 
用 某 个 方法 时 抛 出 了 异常 ， 服 务 需 不 会 因此 而 崩溃 。 但 是 ， 如 何 将 异常 信息 回 传 给 客 
户 端 则 需要 好 好 思考 一 番 。 如 果 正 在 使 用 pickle， 通 常 异 常 实例 会 经 过 序列 化 处 理 之 
后 再 在 客户 端 重新 抛 出 。 如 果 在 使 用 其 他 的 编码 协议 ,， 那 就 要 考虑 其 他 的 方法 了 。 至 
少 ,应 该 在 响应 中 返回 异常 信息 字符 串 。 上 面 使 用 JSON 编码 的 示例 采用 的 正 是 这 种 
有 关 RPC 实现 的 另 一 个 例子 ， 看 看 在 XML-RPC 中 使 用 的 SimpleXMLRPCServer 和 
ServerProxy 类 的 实现 是 很 有 帮助 的 ， 我 们 在 11.6 节 已 经 描述 过 了 。 
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11.9 ”以 简单 的 方式 验证 客户 端 身份 


11.9.1 问题 
我 们 希望 有 一 种 简单 的 方式 可 以 对 在 分 布 式 系统 中 连接 到 各 个 服务 器 上 的 客户 端 进行 
身份 验证 ,但 是 又 不 想 使 用 像 SSL 那样 的 复杂 组 件 。 


11.9.2 ”解决 方案 
我 们 可 以 利用 hmac 模块 实现 一 个 握手 连接 来 达到 简单 且 高 效 的 身份 验证 目的 。 下 面 是 
示例 代码 ; 


import hmac 








import os 


def client_authenticate(connection, secret_key): 
tri 
Authenticate client to a remote service. 
connection represents a network connection. 
secret_key is a key known only to both client/server. 
rri 
message = connection. recv (32) 
hash = hmac.new(secret_key, message) 
digest = hash.digest () 
connection.send (digest) 


def server_authenticate(connection, secret_key): 


meer 


Request client authentication. 


meer 


message = os.urandom(32) 

connection.send (message) 

hash = hmac.new(secret_key, message) 

digest = hash.digest () 

response = connection. recv(len (digest) ) 
return hmac.compare digest (digest, response) 


总 体 思路 就 是 在 发 起 连接 时 ， 服 务 器 将 一 段 由 随机 字 节 组 成 的 消息 发 送 给 客户 端 (在 
本 例 中 是 由 os.urandom0) 返 回 的 )。 客 户 端 和 服务 器 通过 hmac 模块 以 及 双方 事先 都 知道 
的 密 钥 计算 出 随机 数据 的 加 密 hash, 客户 端 发 送 它 计算 出 的 摘要 值 ( digest ) 给 服务 器 ， 
而 服务 器 对 摘要 值 进行 比较 ， 以 此 来 决定 是 要 接受 还 是 拒绝 这 个 连接 。 

对 摘要 值 进行 比较 需要 使 用 hmac.compare_digestO 函 数 。 这 个 函数 的 实现 可 避免 遭受 基 
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于 时 序 分 析 的 攻击 ( timing-analysis attack )， 因 此 应 该 用 它 来 对 摘要 值 进行 比较 而 不 能 
用 普通 的 比较 操作 符 (== )。 


要 使 用 这 些 函 数 ， 我 们 可 以 将 它们 合并 到 已 有 的 有 关 网 络 或 消息 处 理 的 代码 中 。 比 如 ， 
如 果 用 到 了 socket， 服 务 器 端的 代码 看 起 来 就 是 这 样 的 : 


from socket import socket, AF_INET, SOCK_STREAM 























secret_key = b'peekaboo' 
def echo handler (client sock): 
if not server_authenticate(client_sock, secret_key): 
client_sock.close() 
return 
while True: 
msg = client_sock.recv (8192) 
if not msg: 
break 


client_sock.sendall (msg) 


def echo _ server (address): 
s = socket (AF_INET, SOCK_STREAM) 
s.bind(address) 
s.listen(5) 
while True: 
cra = s.accept () 
echo_handler (c) 


echo_server(('', 18000)) 


而 在 客户 端 ， 则 可 以 这 样 处 理 : 


from socket import socket, AF_INET, SOCK_STREAM 








secret_key = b'peekaboo' 


s = socket (AF_INET, SOCK_STREAM) 
s.connect (('localhost', 18000) ) 
client_authenticate(s, secret_key) 
s.send(b'Hello World') 

resp = s.recv(1024) 


11.9.3 Ji 
在 内 部 消息 系统 以 及 进程 间 通 人 
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H hmac 来 验证 身份 。 比 如 ， 如 果 正 在 编写 的 
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系统 需要 实现 跨 集 群 的 多 进程 间 通 信 ， 就 可 以 使 用 这 种 方法 来 确保 只 有 获得 许可 的 进 
程 才能 互相 通信 。 事实 上 , 在 multiprocessing 库 中 ， 当 同 子 进程 建立 通信 时 在 内 部 也 是 
使 用 的 基于 hmac 的 身份 验证 方式 。 


需要 重点 强调 的 是 ， 验 证 某 个 连接 和 加 密 连接 可 不 是 一 回 事 。 在 经 过 验证 的 连接 上 ， 
后 续 的 通信 都 是 以 明文 发 送 的 ， 对 于 任何 企图 嗅 探 流量 的 人 来 说 ， 这 些 消息 都 是 可 见 
的 (尽管 完成 验证 所 需 的 密 钥 从 来 都 没有 传送 过 )。 

hmac 所 采用 的 身份 验证 算法 是 基于 加 密 哈 希 函数 的 ， 比 如 MDS 和 SHA-1， 这 些 算法 
的 细节 描述 可 以 在 IETF RFC 2104 ( http://tools.ietf.org/html/rfc2104.html ) 中 找到 。 































































































11.10 为 网 络 服务 增加 SSL 支持 


11.10.1 问题 


我 们 想 通 过 socket 实现 一 个 网 络 服务 ， 要 求 服务 器 端 和 客户 端 可 以 通过 SSL 实现 身份 
验证 ， 并 且 对 传输 的 数据 进行 加 密 。 


11.10.2 解决 方案 


ssl 模块 可 以 为 底层 的 socket 连接 添加 对 SSL 的 支持 。 具 体 来 说 就 是 ssl.wrap_socketO 
函数 可 接受 一 个 已 有 的 socket， 并 为 其 包装 一 个 SSL 层 。 比 方 说 ， 下 面 的 示例 展示 了 
一 个 简单 的 echo 服务 ,服务器 对 发 起 连接 的 客户 端 提 供 了 一 个 服务 器 证 书 : 


from socket import socket, AF INET, SOCK_STREAM 




















import ssl 
KEYFILE = 'server key.pem' # Private key of the server 
CERTFILE = 'server_cert.pem!' # Server certificate (given to client) 


def echo client(s): 


while True: 
data = s.recv (8192) 
if data == b'': 
break 


s.send (data) 
s.close() 
print ('Connection closed') 


def echo server (address): 
s = socket (AF_INET, SOCK_STREAM) 
s.bind (address) 
s. listen (1) 
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# Wrap with an SSL layer requiring client certs 
s_ssl = ssl.wrap_socket(s, 
keyfile=KEYFILE, 
certfile=CERTFILE, 
server side=True 
) 
# Wait for connections 
while True: 
try: 
ca = s_ssl.accept () 
print ('Got connection', c, a) 
echo client (c) 
except Exception as e: 
print ('{}: {}'.format(e. class . name , e)) 


echo server(('', 20000)) 


下 面 的 交互 式 会 话 展 示 了 客户 端 是 如 何 连接 到 服务 器 的 。 客 户 端 要求 服 务 器 出 示 自 己 
的 证 书 并 完成 验证 。 
>>> from socket import socket, AF_INET, SOCK_STREAM 


>>> import ssl 
>>> s = socket (AF_INET, SOCK STREAM) 








>>> s_ssl = ssl.wrap_socket(s, 
cert_reqs=ssl.CERT_REQUIRED, 
ca_certs = 'server_cert.pem') 
>>> s_ssl.connect (('localhost', 20000) ) 


>>> s_ssl.send(b'Hello World?') 
12 
>>> s_ssl.recv (8192) 
b'Hello World?' 

>>> 





这 些 底 层 的 socket 技巧 所 带 来 的 问题 在 于 ， 它 们 无 法 和 已 经 通过 标准 库 实 现 的 网 络 服 
务 很 好 地 结合 在 一 起 。 比 方 说 ， 大 部 分 的 服务 器 端 代码 (HTTP, XML-RPC 等 ) 实际 
上 是 基于 socketserver 库 来 实现 的 。 客 户 端 代码 也 是 在 更 高 的 层面 上 来 实现 的 。 为 已 有 
的 服务 添加 对 SSL 的 支持 是 可 以 实现 的 ， 但 是 需要 的 方法 稍 有 不 同 。 
首先 ， 对 于 服务 器 端 来 说 可 以 通过 混和 人 类 (mixin class ) 来 添加 对 SSL 的 支持 : 


import ssl 


















































class SSLMixin: 


oer 


Mixin class that adds support for SSL to existing servers based 
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on the socketserver module. 
tri 
def init (self, *args, 
keyfile=None, certfile=None, ca_certs=None, 
cert_reqs=ssl.NONE, 
**kwargs): 
self. keyfile = keyfile 
self. certfile = certfile 
self. ca certs = ca certs 
self. cert_reqs = cert_reqs 
super(). init (*args, **kwargs) 


def get_request (self): 

client, addr = super().get_request () 

client_ssl = ssl.wrap_socket (client, 
keyfile = self._keyfile, 
certfile = self. _certfile, 
ca_certs = self. ca certs, 
cert_reqs = self. cert_reqs, 

server side = True) 


return client ssl, addr 
要 使 用 这 个 混入 类 ， 可 以 将 它 和 别 的 服务 器 类 混合 在 一 起 使 用 。 比 如 ， 下 面 的 示例 定 
义 了 一 个 运行 在 SSL 之 上 的 XML-RPC 服务 器 : 


# XML-RPC server with SSL 
from xmlrpc.server import SimpleXMLRPCServer 


class SSLSimpleXMLRPCServer (SSLMixin, SimpleXMLRPCServer) : 


pass 


下 面 的 XML-RPC 服务 器 代码 取 自 11.6 节 ， 只 做 了 些许 修改 以 支持 SSL: 


import ssl 
from xmlrpc.server import SimpleXMLRPCServer 


from sslmixin import SSLMixin 


class SSLSimpleXMLRPCServer (SSLMixin, SimpleXMLRPCServer) : 


pass 


class KeyValueServer: 
_rpc_methods_ = ['get', 'set', 'delete', 'exists', 'keys'] 
def init (self, *args, **kwargs): 
self. data = {} 
self. serv = SSLSimpleXMLRPCServer(*args, allow_none=True, **kwargs) 





AK 
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def 


def 


def 


def 


def 


def 


for name in self. rpc_methods_: 


self. _serv.register_function(getattr(self, name) ) 


get (self, name): 
return self. data[name] 


set (self, name, value): 
self. data[name] = value 
delete(self, name): 


del self. data[name] 


exists(self, name): 
return name in self. data 


keys (self): 
return list (self. data) 


serve forever(self): 


self. serv.serve forever () 


if name == ' main ': 





KEYFILE=" server key.pem' # Private key of the server 


CERTFILE='server_cert.pem' # Server certificate 


kvserv = KeyValueServer(('', 15000), 


keyfile=KEYFILE, 
cert file=CERTFILE) 


kvserv.serve forever () 


要 使 用 这 个 服务 器 ， 可 以 利用 xmlrpc.client 模块 来 完成 连接 。 上 
https: 即 可 。 示 例如 下 : 


>>> from xmlrpc.client import ServerProxy 


>>> sS 











= ServerProxy('https://localhost:15000', allow_none=True) 


>>> s.set('foo', 'bar') 


>>> s.set('spam', [1, 2, 3]) 


>>> s.keys() 


['spam', 


'foo'] 


>>> s.get ('foo') 


"bar' 


>>> s.get ('spam') 
[Ly 2p. 3] 
>>> s.delete('spam') 


>>> s.exists('spam') 


False 
>> 


只 要 在 URL 中 指定 一 个 
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SSL 客户 端 中 一 个 比较 复杂 的 问题 在 于 如 何 执行 额外 的 步 又 来 验证 服务 天 证 书 ， 或 者 
向 服务 器 展示 客户 端的 凭证 〈 比如 客户 端 证 书 ) 不 幸 的 是 ， 似 乎 并 没有 标准 的 方法 来 














完成 这 些 任务 ， 因 此 常常 需要 做 一 点 研究 。 下 面 的 示例 展示 了 如 何 建立 一 条 安全 的 


XML-RPC 连接 来 验证 服务 器 证 书 : 


from xmlrpc.client import SafeTransport, ServerProxy 
import ssl 


class VerifyCertSafeTransport (SafeTransport): 


def init (self, cafile, certfile=None, keyfile=None) : 


SafeTransport. init _ (self) 


self. ssl context = ssl.SSLContext (ssl.PROTOCOL_TLSv1) 


self._ssl_context.load_verify_locations (cafile) 
if cert: 








def make connection(self, host): 


# Items in the passed dictionary are passed as keyword 

# arguments to the http.client.HTTPSConnection() constructor. 
# The context argument allows an ssl.SSLContext instance to 
# be passed with information about the SSL configuration 


s = super().make_connection((host, {'context': self. ssl_context}) ) 


return s 


# Create the client proxy 
s = ServerProxy('https://localhost:15000', 


transport=VerifyCertSafeTransport ('server_cert.pem'), 


allow_none=True) 

















self._ssl_context.load_cert_chain(certfile, keyfile) 
self._ssl_context.verify_mode = ssl.CERT_REQUIRED 


我 们 前 面 给 出 的 解决 方案 中 是 由 服务 器 端 向 客户 端 发 送 证 书 ， 然 后 客户 端 来 验证 。 其 
实 ， 这 个 验证 步骤 可 以 在 两 个 方向 上 进行 《 即 ， 服 务 需 到 客户 端 、 客 户 端 到 服务 吉 )。 








如 果 服 务 器 想 要 验证 客户 端 ， 只 要 把 启动 服务 器 的 代码 修改 为 如 下 形式 即 可 : 


if name == ' main ': 





KEYFILE='server_key.pem' # Private key of the server 


CERTFILE='server_cert.pem' # Server certificate 


CA_CERTS='client_cert.pem' # Certificates of accepted clients 


kvserv = KeyValueServer(('', 15000), 
keyfile=KEYFILE, 
certfile=CERTFILE, 
ca_certs=CA_CERTS, 
cert_reqs=ssl.CERT_REQUIRED, 
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kvserv.serve forever () 


要 让 XML-RPC 客户 端 发 出 自己 的 证 书 ， 需 要 把 ServerProxy 的 初始 化 修改 为 如 下 方式 : 


# Create the client proxy 
s = ServerProxy('https://localhost:15000', 
transport=VerifyCertSafeTransport ('server_cert.pem', 
"client_cert.pem', 
"client_key.pem'), 
allow_none=True) 


11.10.3 讨论 

要 让 本 节 中 提 到 的 技术 能 正常 运转 ， 这 对 于 我 们 的 系统 配置 能 力 和 对 SSL 的 理解 都 将 
是 一 场 考 验 。 也 许 最 大 的 挑战 就 是 按 顺序 获取 密 钥 的 初始 配置 、 证 书 以 及 其 他 一 些 相 
关 的 细节 。 

我 们 来 理 清 一 下 这 里 的 需求 ，SSL 连接 的 每 个 端点 一 般 来 说 都 有 一 e 
个 签名 的 证 书 文件 。 证 书 文件 中 包含 有 公有 密 钥 ， 在 每 个 连接 中 会 发 送 给 对 端 节点 。 
对 于 面向 大 众 的 服务 ， 证 书 一 般 会 由 证 书 授权 机 构 如 Verisign, Equifax 
织 (需要 付费 的 机 构 ) 来 签名 。 要 验证 服务 器 端的 证 书 ， 客 户 端 会 维护 一 个 文件 ， 其 
中 包含 有 受信 任 的 证 书 颁发 机 构 所 发 布 的 证 书 。 比 方 说 ，Web 浏览 器 维护 着 与 主要 的 
正 书 颁 发 机 构 相 对 应 的 证 书 ， 并 且 会 在 HTTPS 连接 中 用 这 些 证 书 来 验证 由 Web 服务 器 
发 送 过 来 的 证 书 的 完整 性 。 


为 了 验证 本 节 提 到 的 技术 ， 可 以 创建 一 个 被 称 之 为 自 签 名 的 证 书 。 可 以 这 样 来 实现 : 


bash % openssl req -new -x509 -days 365 -nodes -out server cert.pem \ 























pey 





-keyout server_key.pem 

Generating a 1024 bit RSA private key 

EREADER EE RANEE AIE ERA RAA EEA 44444 

。. 十 + 十 十 二 十 
writing new private key to 'server_key.pem' 
You are about to be asked to enter information that will be incorporated 
into your certificate request. 
What you are about to enter is what is called a Distinguished Name or a DN. 
There are quite a few fields but you can leave some blank 
For some fields there will be a default value, 
If you enter '.', the field will be left blank. 
Country Name (2 letter code) [AU]:US 
State or Province Name (full name) [Some-State]:Illinois 
Locality Name (eg, city) []:Chicago 
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当 创 建 证 书 时 ， 各 个 字段 的 值 常 常 是 随机 的 。 但 是 ,“Common Name” 字 段 通 


Organization Name (eg, company) 


Organizational Unit Name (eg, section) []: 


Common Name (eg, YOUR name) 


Email Address []: 
bash % 


{]: localhost 


{Internet Widgits Pty Ltd]:Dabeaz, LLC 























常会 包含 


DNS 服务 器 的 主机 名 。 如 果 只 是 在 自己 的 机 器 上 做 下 测试 ， 可 以 用 “localhost” 来 替代 。 


F 





而 在 server_cert.pem 中 的 月 








1 就 用 运行 服务 器 程序 的 机 圳 域名 。 








sper BEGIN RSA PRIVATE KEY----- 


MI ICXQIBAAKBgQCZrCNLOEyAKF+f£9UNc 


Faz50sa6jf7qkbU18si5xQrY3ZYC7juu 


nL1dZLn/VbEFIITaUOgvBtPv1qUWTJGwga62VSGLoFEQODIx3g2Nh4sRftrySsx2 
L4442nx0z405vJQ7k6eRNHAZUUNCL50+YvjyLyt 7ryLs jSukhCcJsbZgPwIDAQAB 


AoGABSevrr7eyL4160tMSrHTeATlaLY3 


UBOe5Z8XN8Z6gLiB/ucSX9AysviVD/6F 


30D6z2aL8 jbeJclvHgqjt 0dC2dwwm32vV18mRdyoAsQpWmiqxrkvP 4Bs104VpBeHw 





Qt 8xNSW9ISFhceL3LEvw9M8i 9MV3 9Viih 
PoLQVFAirD£X2UnLTdWbc+M11a9Jdn3h 
YbTvqKc 7AkKEAwbnRBO2VY 
WDIHJG1CHudD09GbqENas 





1LILyH80uHdvJyFECQQDLEj12d2ppxND9 
F8TcxfEnFVs5GavlMusicY5KBOy1YPb 
EZSJZp2X01ZqgP 9ovWokkpYx+PE4+c6MySDgaMcigL7v 
Dzyb2HAIW4CzQUBAKDdkv+xoW6gJx42Auc2WzTcUHCA 





eXR/+BLpPrhKykzbvOQ8YvS5W764SU01lu1LWs3G+wnRMvrRv1lMCZKgggB jkCQQCG 


Jewto2+atWkOKQXrNNScC 


V/yX6fwOghtfLWtkOs/J 
CHZXdJd3XQ6qUmNxNn7id 





SERER END RSA PRIVATE KEY----- 





MIIC+DCCAMGgAwIBAgIJ 


BAYTALVIMREwDwYDVQQIEwhJbGxpbm9pcz 





DESaPTmZQcSwaCYq4UmCZQcOjkKUOiN3ST1US5iuxRqfb 
AkA+okMSxZwqRt fgOFGBfwQ8/ikKrnizeanTQ3L6scFXI 
7S/LDawolQfWkCf£D9FYoxBlg 








R 务 器 端 证 书 看 起 来 也 很 类 似 : 


APMd+vi45js3MA0GCSqGSIb3DQEBBQUAMF wxCzAJBgNV 
EOMA4GA1UEBxMHQ2hpY2FnbzEUMBIG 


A1UEChMLRGF i ZWF 6LCBMTEMxE jAQBgNVBAMTCWxvY2F saG9zdDAeFwOxMZAxMTEX 
ODQyMjdaF'wOxNDAxMTExODQyMjdaMFwxC zAJBgNVBAYTAILVIMREwDwYDVQQIEwhJ 


bGxpbm9pczEQMA4GA1UEBxMHQ2hpY2Fnbz 
EjJAQBgNVBAMTCWxvY2F saG9zdDCBnzANBg 


maw jS6BMgChfn/VDXBWs+TrGuo3+ 6pGlJfLIucU 
21DoLwbT79alFkyRsIGut1lUhtaBRNDgyMd4NjYe 
O50nkTRwGVF JwitdPmL48i8re68i0o0rioQnCbG2YD8CAwEAAaOBwICBv jAdBgNV 





HQ4EFgQUrt oLHHgXiDZTr2 6NMmgKJLJLFt 





iDZTr2 6NMmgKJLULFtKhYKReMFwxC zAJBgNVBAY 


bm9pczEQMA4GA1UEBxMHQ2hpY2FnbzEUMB 








EUMBIGA1UEChMLRGF i ZWF 6LCBMTEMx 
ghkiG9wOBAQEFAAOB jQAwgYkKCgYEA 


2N2WAu4 Trpy 9XWS5 / 1WxBSCE 


LEX/gq8krMdi+OONp8dM+DubyU 


wgY4GA1UdIwSBh jCBg4AUrt oLHHgX 





[TALVIMREwDwYDVQQIEwhJbGxp 





GA1UEChMLRGF i ZWF 6LCBMTEMxE JAQ 


BgNVBAMTCWxvY2F saG9zdIIJAPMd+vi45 js3MAwGA1UdEWQFMAMBA f 8wDQYJKoZI 
hvcNAQEFBQADgYEAF citdqvMG4xF 8UTnbGVvZJP 








zJDRee 6Nbt 6AHQo 9pOdAIMAu 


配置 的 结果 就 是 我 们 将 得 到 一 个 server_key.pem 文件 ， 其 中 包含 了 私 钥 。 它 看 起 来 





480 


AK 


第 11 章 


WsGCp1SOaDNdkKKz1+b2UT2Zp3A1W4Qd51bouSNnR4M/gnr9ZD1ZctFd3jS+C5XRp 
D3vvcW51AnCCC80P 6rXy7d7hTeFuSEYKtRGXNVVNd/06NALGDf£lrrOwxF 3Y= 





在 与 服务 器 相关 的 代码 中 ， 私 钥 和 证 书 文件 都 需要 传递 给 各 种 SSL 相关 的 包装 函数 中 。 
证 书 会 呈现 给 客户 端 ， 而 私 钥 则 应 该 受到 保护 ， 就 保留 在 服务 器 端 。 

在 与 客户 端 相关 的 代码 中 ， 我 们 需要 维护 一 个 特殊 的 文件 ， 其 中 包含 有 合法 的 证 书 颁 
发 机 构 信 息 ， 以 此 来 验证 服务 器 端的 证 书 。 如 果 没 有 这 样 的 文件 ， 那 么 至 少 可 以 把 服 
务 需 端的 证 书 拷贝 一 份 放 在 客户 端 机 器 上 ， 用 这 个 拷贝 作为 验证 的 手段 。 在 建立 连接 
时 ， 服 务 器 会 发 送 自己 的 证 书 ， 而 我 们 就 可 以 用 已 经 保存 好 的 证 书 来 完成 验证 。 

服务 器 也 可 以 选择 验证 客户 端的 身份 。 要 做 到 这 一 点 ， 客 户 端 需要 有 自己 的 私 钥 和 证 
书 。 而 服务 器 端 也 需要 维护 一 个 受信 任 的 证 书 颁发 机 构 信 息 文 件 ， 以 此 来 验证 客户 端 
的 证 书 。 

如 果真 的 想 在 网 络 服务 中 添加 对 SSL 的 支持 ， 本 节 仅 仅 只 是 小 试 身 手 告诉 你 如 何 完成 
设置 。 你 肯定 需要 参考 有 关 文 档 (http://docs.python.org/3/library/ssl.html ) 以 了 解 更 多 
的 细节 。 准 备 好 花 大 量 的 时 间 对 代码 进行 试验 吧 ， 直 到 程序 能 正常 工作 为 止 。 





















































11.11 在 进程 间 传 递 socket 文件 描述 符 


11.11.1 问题 

我 们 正在 运行 多 个 Python 解释 器 进程 ， 想 把 一 个 打开 的 文件 描述 符 从 一 个 解释 器 传递 
到 另 一 个 解释 器 上 。 例 如 ， 也 许 这 里 有 一 个 服务 器 进程 负责 接收 连接 ， 但 是 实际 处 理 
客户 端的 请 求 是 通过 另 一 个 不 同 的 解释 器 来 完成 的 。 


11.11.2 ”解决 方案 

要 在 进程 间 传 递 文件 描述 符 ， 首 选 需要 将 进程 连接 在 一 起 。 在 UNIX 系统 上 ,你 可 能 
要 用 到 UNIX 域 socket, ME Windows 上 可 以 使 用 命名 管道 。 但 是 ， 与 其 同 这 些 底 
层 的 进程 间 通 信 机 制 打交道 , 利用 multiprocessing 模块 来 建立 这 样 的 连接 通常 会 简单 
得 [0] 

一 旦 进程 间 的 连接 建立 起 来 了 ， 就 可 以 使 用 multiprocessing.reduction 模块 中 的 
send_handle() 和 recv_handleO 函 数 来 在 进程 之 间 传 送 文件 描述 符 了 。 下 面 的 示例 给 出 了 
基本 用 法 : 


import multiprocessing 
















































































from multiprocessing.reduction import recv_handle, send_handle 
import socket 
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def worker(in_p, out_p): 
out_p.close() 
while True: 
fd = recv_handle(in_p) 
print ('CHILD: GOT FD', fd) 
with socket.socket (socket.AF INET, socket.SOCK STREAM, fileno=fd) as s: 
while True: 
msg = s.recv(1024) 
if not msg: 
break 
print ('CHILD: RECV {!r}'.format (msg) ) 


s.send (msg) 


def server (address, in_p, out_p, worker pid) : 
in_p.close() 
s = socket.socket (socket.AF INET, socket.SOCK_ STREAM) 
s.setsockopt (socket .SOL SOCKET, socket.SO_REUSEADDR, True) 
s.bind (address) 
s. listen (1) 
while True: 
client, addr = s.accept () 
print ('SERVER: Got connection from', addr) 
send_handle(out_p, client.fileno(), worker_pid) 


client.close() 


if name == ' main_': 





cl, c2 = multiprocessing.Pipe() 
worker_p = multiprocessing.Process(target=worker, args=(cl,c2)) 
worker p.start () 


server p = multiprocessing. Process(target=server, 
args=(('', 15000), cl, c2, worker_p.pid) ) 
server _p.start () 


cl.close() 
c2.close() 


在 这 个 示例 中 我 们 生成 了 两 个 进程 ， 并 且 利 用 multiprocessing 模块 的 Pipe 对 象 将 它们 
连接 在 一 起 。 服 务 器 进程 打开 一 个 socket 并 等 待 客户 端的 连接 。 工 作者 进程 只 是 通过 
recv_handle(0 在 管道 上 等 待 接收 文件 描述 符 。 当 服务 器 接收 到 一 条 连接 时 ， 它 会 将 得 到 
的 socket 文件 描述 符 通过 send_handle0 发 送 给 工作 者 进程 。 工 作者 进程 接管 这 个 socket 
并 将 数据 回 显 给 客户 端 直到 连接 关闭 为 止 。 

如 果 使 用 Telnet 或 者 类 似 的 工具 去 连接 服务 器 ， 那 么 可 能 会 看 到 如 下 的 结果 : 
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bash % python3 passfd.py 

SERVER: Got connection from ('127.0.0.1', 55543) 
CHILD: GOT FD 7 

CHILD: RECV b'Hello\r\n' 

CHILD: RECV b'World\r\n' 











这 个 例子 中 最 重要 的 部 分 就 是 服务 器 端 接收 到 的 客户 端 socket 实际 上 是 由 另 一 个 进程 











去 处 理 的 。 服 务 器 仅仅 只 是 将 它 转手 出 去 、 关 闭 它 然后 等 待 下 一 个 连接 。 
11.11.3 tit 





有 许多 程序 员 甚至 都 没有 意识 到 在 进程 之 间 传 递 文件 描述 符 是 可 以 实现 的 。 这 种 技术 
在 构建 可 扩展 的 系统 时 会 是 一 件 有 用 的 工具 。 比 如 在 多 核 机 器 上 ， 我 们 会 同时 运行 多 
个 Python 解释 器 实例 ， 用 传递 文件 描述 符 的 方式 来 对 每 个 解释 器 处 理 的 客户 端 数 量 做 








负载 均衡 。 
解决 方案 中 出 现 的 send_handle0 和 recv_handleO 函 数 只 能 用 于 多 进程 连接 上 


SE. BR 




















了 使 用 管道 之 外 ， 还 可 以 按照 11.7 节 中 介绍 的 方法 来 连接 解释 器 ， 只 要 你 用 的 是 UNIX 
域 socket 或 者 Windows 命名 管道 就 可 以 。 比 如 ， 可 以 将 服务 器 和 工作 者 进程 实现 为 完 





全 分 离 的 程序 ， 可 以 分 别 启动 。 下 面 是 服务 器 端的 实现 : 


# servermp.py 





from multiprocessing.connection import Listener 
from multiprocessing.reduction import send handle 
import socket 


def server (work_address, port): 
# Wait for the worker to connect 
work_serv = Listener (work_address, authkey=b'peekaboo') 
worker = work _serv.accept () 


worker pid = worker.recv() 


# Now run a TCP/IP server and send clients to worker 
s = socket.socket (socket.AF INET, socket .SOCK STREAM) 
s.setsockopt (socket.SOL_ SOCKET, socket.SO_REUSEADDR, True) 
s.bind(('', port)) 
s. listen (1) 
while True: 
client, addr = s.accept () 
print ('SERVER: Got connection from', addr) 
send _ handle (worker, client.fileno(), worker_pid) 
client .close() 


if name == ' main ': 





import sys 
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if len(sys.argv) != 3: 
print ('Usage: server.py server_address port', file=sys.stderr) 
raise SystemExit (1) 


server (sys.argv[1], int(sys.argv[2])) 


要 运行 这 个 服务 器 ， 可 以 输入 这 样 的 命令 : python3 servermp.py /tmp/servconn 15000. 
下 面 是 对 应 的 客户 端 代码 : 


# workermp.py 


from multiprocessing.connection import Client 
from multiprocessing.reduction import recv handle 
import os 

from socket import socket, AF_INET, SOCK STREAM 


def worker(server address): 
serv = Client (server_address, authkey=b'peekaboo') 
serv.send(os.getpid()) 
while True: 
fd = recv_handle (serv) 
print ('WORKER: GOT FD', fd) 
with socket (AF_INET, SOCK_STREAM, fileno=fd) as client: 
while True: 
msg = client.recv (1024) 
if not msg: 
break 
print ('WORKER: RECV {!r}'.format (msg) ) 


client .send (msg) 





if name == '_main_': 
import sys 
if len(sys.argv) != 2: 


print ('Usage: worker.py server_address', file=sys.stderr) 
raise SystemExit (1) 


worker (sys.argv[1] 





要 运行 工作 者 进程 ， 可 以 输入 python3 workermp.py /tmp/servconn。 得 到 的 结果 应 该 和 
使 用 Pipe0 的 例子 完全 一 样 。 

在 底层 ,文件 描述 符 的 传递 涉及 创建 UNIX 域 socket， 并 且 要 用 到 socket 的 sendmsg() 方 
法 。 由 于 这 个 技术 并 不 是 广为人知 ， 下 面 我 们 给 出 另 一 种 不 同 的 服务 器 实现 ， 展 示 了 
如 何 利用 socket 来 传递 文件 描述 符 : 
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# server.py 
import socket 
import struct 


def send fd(sock, fd): 


per 


Send a single file descriptor. 
ree 
sock.sendmsg([b'x'], 
[ (socket .SOL_SOCKET, socket.SCM_RIGHTS, struct.pack('i', fd))]) 
ack = sock.recv(2) 
assert ack == b'OK' 


def server (work_address, port): 
# Wait for the worker to connect 
work serv = socket.socket (socket.AF UNIX, socket.SOCK STREAM) 
work serv.bind(work address) 
work serv.listen (1) 
worker, addr = work _serv.accept () 


# Now run a TCP/IP server and send clients to worker 
s = socket.socket (socket.AF INET, socket.SOCK STREAM) 
s.setsockopt (socket.SOL_SOCKET, socket.SO_REUSEADDR, True) 
s.bind(('',port) ) 
s. listen (1) 
while True: 

client, addr = s.accept () 

print ('SERVER: Got connection from', addr) 

send fd(worker, client.fileno()) 


client.close() 





if name == '_main_': 
import sys 
if len(sys.argv) != 3: 


print ('Usage: server.py server_address port', file=sys.stderr) 
raise SystemExit (1) 


server (sys.argv[1], int(sys.argv[2])) 


下 面 是 用 socket 实现 的 工作 者 进程 : 


# worker.py 





import socket 
import struct 


def recv_fd(sock): 
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meer 


Receive a single file descriptor 
TIT 
msg, ancdata, flags, addr = sock.recvmsg (1, 
socket .CMSG_LEN(struct.calcsize('i'))) 


cmsg_level, cmsg_type, cmsg_data = ancdata[0] 

assert cmsg_level == socket.SOL_SOCKET and cmsg_type == socket.SCM_RIGHTS 
sock.sendall (b'0K') 

return struct.unpack('i', cmsg_data) [0] 


def worker (server address): 
serv = socket.socket (socket.AF UNIX, socket.SOCK STREAM) 
serv.connect (server _address) 
while True: 
fd = recv_fd(serv) 
print ('WORKER: GOT FD', fd) 
with socket.socket (socket.AF INET, socket.SOCK STREAM, fileno=fd) as client: 
while True: 
msg = client.recv (1024) 
if not msg: 
break 
print ('WORKER: RECV {!r}'.format (msg) ) 


client .send (msg) 





if name == '_main_': 
import sys 
if len(sys.argv) != 2: 


print ('Usage: worker.py server_address', file=sys.stderr) 
raise SystemExit (1) 


worker (sys.argv[1] 

















如 果 打 算 在 自己 的 程序 中 传递 文件 描述 符 ， 那 么 读 一 些 相 关 的 高 级 材料 比如 W.Richard 
Stevens 所 车 的 Unix Network Programming ( Prentice Hall, 1990 ) 是 非常 明智 的 。 在 Windows 
上 传递 文件 描述 符 需 要 使 用 与 UNIX 不 同 的 技术 (本 节 未 给 出 ) 对 于 Windows FA, Œ 
议 学 习 一 下 multiprocessing.reduction 的 源码 ， 研 究 其 中 的 细节 来 看 看 到 底 是 如 何 实现 的 。 











11.12 ”理解 事件 驱动 型 |/O 


11 


.12.1 问题 





我 们 可 能 已 经 听 说 过 某 些 Python 的 包 是 基于 “事件 驱动 ”或 “异步 ”IO 的 , 但 是 并 不 
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能 完全 理解 这 到 底 是 什么 意思 ， 在 底层 它 究竟 是 如 何 工 作 的 ， 或 者 说 如 果 使 用 了 这 样 
的 技术 会 对 程序 产生 什么 影响 。 


11.12.2 解决 方案 


从 根本 上 说 , 事件 驱动 TO 是 一 种 将 基本 的 IO 操作 ( 即 , 读 和 写 ) 转换 成 事件 的 技术 ， 
而 我 们 必须 在 程序 中 去 处 理 这 种 事件 。 比 方 说 ， 当 在 socket 上 收 到 数据 时 ， 这 就 成 为 
一 个 “接收 事件 ”， 由 我 们 提供 的 回调 方法 或 者 函数 负责 处 理 以 此 来 响应 这 个 事件 。 一 
个 事件 驱动 型 框架 可 能 会 以 一 个 基 类 作为 起 始点 ， 实 现 一 系列 基本 的 事件 处 理 方法 ， 
就 像 下面 的 示例 这 样 : 

class EventHandler: 


def fileno(self): 


"Return the associated file descriptor' 











| 四 














raise NotImplemented('must implement') 


def wants to receive(self): 
"Return True if receiving is allowed' 
return False 


def handle receive(self): 
"Perform the receive operation' 
pass 


def wants _to_send(self): 
"Return True if sending is requested' 
return False 


def handle send(self): 
"Send outgoing data' 
pass 


之 后 ， 就 可 以 把 这 个 类 的 实例 搬入 到 一 个 事件 循环 中 ， 看 起 来 是 这 样 的 : 


import select 











def event_loop (handlers): 


while True: 
wants recv = [h for h in handlers if h.wants_to receive () ] 
wants_send = [h for h in handlers if h.wants_to_send() 
can recv, can send, _ = select.select (wants _recv, wants_send, []) 


for h in can_recv: 
h.handle receive () 

for h in can_send: 
h.handle_send() 
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就 这 么 简单 ! 事件 循环 的 核心 在 于 select0 调 用 ， 它 会 轮 询 文 件 描 述 符 检查 它们 是 否 处 
于 活跃 状态 。 在 调用 selectO 之 前 ,事件 循环 会 简单 地 查询 所 有 的 处 理 方法 ， 看 它们 是 
希望 接收 还 是 发 送 数 据 。 然 后 把 查询 的 结果 以 列表 的 方式 提供 给 select0。 结 果 就 是 ， 
select0 会 返回 已 经 在 接收 或 发 送 事 件 上 就 绕 的 对 象 列表 。 对 应 的 handle_receive0 或 者 
handle_send( 方 法 就 被 触发 执行 。 


要 编写 应 用 程序 ， 就 需要 创建 特定 的 EventHandler 类 的 实例 。 比 如 ， 这 里 有 两 个 简单 
的 处 理 程序 ， 用 以 说 明 两 个 基于 UDP 的 网 络 服务 : 


import socket 






































import time 


class UDPServer (EventHandler): 
def init (self, address): 
self.sock = socket.socket (socket.AF INET, socket.SOCK DGRAM) 


self.sock.bind (address) 


def fileno(self): 
return self.sock.fileno() 


def wants to receive(self): 
return True 


class UDPTimeServer (UDPServer) : 
def handle receive(self): 
msg, addr = self.sock.recvfrom(1) 
self.sock.sendto(time.ctime().encode('ascii'), addr) 


class UDPEchoServer (UDPServer) : 
def handle receive(self): 
msg, addr = self.sock.recvfrom(8192) 
self.sock.sendto(msg, addr) 


if name == ' main_': 
handlers = [ UDPTimeServer(('',14000)), UDPEchoServer(('',15000)) ] 
event_loop (handlers) 


要 测试 这 份 代码 ， 可 以 试 着 从 另 一 个 Python fi Peas PERERA at 


>>> from socket import * 

>>> s = socket (AF_INET, SOCK DGRAM) 

>>> s.sendto(b'', ('localhost',14000) ) 

0 

>>> s.recvfrom(128) 

(b'Tue Sep 18 14:29:23 2012', ('127.0.0.1', 14000) 
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>>> s.sendto(b'Hello', ('localhost',15000) ) 


5 


>>> s.recvfrom(128) 
(b'Hello', 


>>> 


( 1 


127.0.0.1', 15000)) 





实现 一 个 TCP 服务 器 就 要 稍微 复杂 一 些 ， 因 为 每 个 客户 端 都 涉及 产生 一 个 新 的 处 理 对 
象 。 下 面 是 TCP echo 客户 端的 示例 : 


class TCPServer (EventHandler) : 


def init (self, address, client handler, handler list): 


def 


def 


def 


se 
se 
se 
se 
se 
se 


fi 





f.sock = socket.socket (socket.AF INET, socket .SOCK STREAM) 
f.sock.setsockopt (socket .SOL SOCKET, socket.SO_REUSEADDR, True) 
f£.sock.bind (address) 

f.sock. listen (1) 

f.client_handler = client_handler 

f.handler list = handler list 

eno(self): 


return self.sock.fileno() 


wants to receive(self): 


return True 


handle receive (self): 


client, addr = self.sock.accept () 
# Add the client to the event loop's handler list 
self.handler_list.append(self.client_handler(client, self.handler_list) ) 


class TCPClient (EventHandler) : 
def init (self, sock, handler list): 


self.sock = sock 


def 


def 


def 





self.handler list = handler list 


self.outgoing = bytearray () 


fileno(self): 


return self.sock.fileno() 


close (self): 


self.sock.close() 


# Remove myself from the event loop's handler list 





self.handler list.remove (self) 


wants _to_send(self): 


return True if self.outgoing else False 
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这 个 TCP AN AS ETE Fis BE A 
客户 端 创建 一 个 新 的 处 理 例 程 # 


def handle send(self): 
nsent = self.sock.send(self.outgoing) 


self.outgoing = self.outgoing[nsent:] 


class TCPEchoClient (TCPClient): 


def wants to receive(self): 


return True 


def handle receive(self): 
data = self.sock.recv (8192) 
if not data: 
self.close() 
else: 
self.outgoing.extend (data) 





name == ' main 
handlers = [] 
handlers.append(TCPServer(('',16000), TCPEchoClient, handlers) ) 


event_loop (handlers) 














须 将 它们 自己 从 列表 中 移 除 出 去 。 


如 果 运 行 这 个 程序 并 尝试 用 Telnet 或 者 类 似 的 工具 来 建立 连接 ， 就 会 看 到 服务 器 会 将 
接收 到 的 数据 回 送 给 你 。 这 个 程序 应 该 能 轻松 处 理 多 个 不 同 的 客户 端 。 


11.12.3 
JAF A SS 








讨论 














列表 中 添加 和 移 除 客户 端 。 在 每 个 连接 中 都 会 为 
添加 到 列表 中 。 可 是 当 连 接 关 闭 时 ， 每 个 客户 端 都 必 





丰 件 驱动 型 框架 的 工作 原理 都 和 我 们 给 出 的 解决 方案 相 类 似 。 实 际 的 实现 


细节 以 及 软件 的 总 体 架 构 可 能 会 有 较 大 的 区 别 ， 但 是 核心 部 分 都 有 一 个 循环 来 轮 询 
socket 的 活跃 性 并 执行 响应 操作 。 





事件 驱动 型 VO 











的 一 个 潜在 优势 在 于 它 可 以 在 不 使 用 线程 和 进程 的 条 件 下 同时 处 理 大 





量 的 连接 。 也 就 是 说 ，select0 调 用 (或 者 功能 相同 的 其 他 调用 ) 可 用 来 监视 成 百 上 千 
个 socket, 并 且 针 对 它们 中 间 发 生 的 事件 作出 啊 应 。 事 件 循环 一 次 处 理 一 个 事件 ,不 需 
要 任何 其 他 的 并 发 原 语 参与 。 





























事件 驱动 型 IO 的 缺点 在 于 这 里 并 没有 涉及 真正 的 并 发 。 如 果 任 何 一 个 事件 处 理 方法 阻 








塞 了 或 者 执行 了 一 个 耗 时 较 长 的 计算 ， 那么 就 会 阻塞 整个 程序 的 执行 进程 。 不 是 以 事 
件 驱 动 风格 实现 的 库 函数 调用 起 来 也 会 有 这 个 问 





























题 。 总 是 会 有 这 样 的 风险 ， 即 ， 茶 些 





库 函 数 调 用 阻塞 了 ， 导 臻 整个 事件 循环 停 小 不 前 。 
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对 于 阻塞 型 或 者 需要 长 时 间 运 行 的 计算 ， 可 以 通过 将 任务 发 送 给 单独 的 线程 或 者 进程 
来 解决 。 但 是 ， 将 线程 和 进程 同事 件 循环 进行 协调 需要 较 高 的 技巧 。 下 面 的 代码 示例 
通过 concurrent.futures 模块 来 实现 : 








from concurrent.futures import ThreadPoolExecutor 
import os 


class ThreadPoolHandler (EventHandler) : 
def init (self, nworkers): 

if os.name == 'posix!: 
self.signal_done_sock, self.done_sock = socket.socketpair () 

else: 
server = socket.socket (socket.AF INET, socket.SOCK STREAM) 
server.bind(('127.0.0.1', 0)) 
server. listen (1) 
self.signal_done_sock = socket.socket (socket .AF_INET, 

socket .SOCK_ STREAM) 

self.signal_done_sock.connect (server.getsockname () ) 
self.done_sock, _ = server.accept () 


server .close () 


self.pending = [] 


self.pool = ThreadPoolExecutor (nworkers) 


def fileno(self): 


return self.done sock.fileno() 


# Callback that executes when the thread is done 

def _complete (self, callback, r): 
self.pending.append((callback, r.result())) 
self.signal_done_sock.send(b'x') 


# Run a function in a thread pool 
def run(self, func, args=(), kwargs={},*,callback) : 


工 


self.pool.submit (func, *args, **kwargs) 
r.add_done_callback (lambda r: self. complete(callback, r)) 


def wants to receive(self): 
return True 


# Run callback functions of completed work 
def handle receive(self): 
# Invoke all pending callback functions 
for callback, result in self.pending: 
callback (result) 
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self.done_sock.recv(1) 


self.pending = [] 


在 这 份 代码 中 ，run() 方 法 用 来 将 任务 以 及 任务 完成 时 需要 触发 的 回调 函数 一 起 提交 到 
线程 池 中 。 实 际 的 任务 就 提交 给 了 ThredPoolExecutor 实例 。 但 是 ， 一 个 非常 坏 手 的 地 
方 在 于 需要 考虑 计算 出 的 结果 同事 件 循 环 之 间 的 协调 同步 问题 。 为 了 实现 这 个 目的 ， 
我 们 在 底层 创建 了 一 对 socket， 用 来 实现 一 种 信号 通知 机 制 。 当 线程 池 中 的 任务 完成 
后 ， 它 就 执行 类 中 的 _complete0 方 法 。 该 方法 在 对 这 些 socket 写 入 一 字 方 的 数据 前 ， 
将 暂停 的 回调 函数 和 结果 进行 排队 处 理 。 季 eno0) 方 法 可 用 来 返回 男 一 个 socket。 因 此 ， 
当 写 入 这 个 字 节 时 就 会 通知 事件 循环 有 事件 发 生 了 。 当 触发 时 ，handle_receive() 方 法 将 
执行 所 有 之 前 提交 过 来 的 回调 函数 。 坦 日 说 ,这 足以 把 人 的 脑袋 弄 尝 。 

下 面 给 出 了 一 个 简单 的 服务 器 实现 ， 展 示 了 如 何 利用 线程 池 来 执行 需要 长 时 间 运 行 的 
计算 任务 : 

# A really bad Fibonacci implementation 


def fib(n): 
ifn< 2: 















































return 1 
else: 
return fib(n - 1) + fib(n - 2) 


class UDPFibServer (UDPServer) : 
def handle receive(self): 
msg, addr = self.sock.recvfrom(128) 
n = int (msg) 
pool.run(fib, (n,), callback=lambda r: self.respond(r, addr) ) 


def respond(self, result, addr): 
self.sock.sendto(str (result) .encode('ascii'), addr) 
if name == '_main_': 
pool = ThreadPoolHandler (16) 
handlers = [ pool, UDPFibServer(('',16000))] 


event_loop (handlers) 
要 测试 这 个 服务 器 ， 只 需要 运行 上 面 的 代码 并 通过 另 一 个 Python 程序 来 做 些 试验 : 


from socket import * 
sock = socket (AF INET, SOCK DGRAM) 
for x in range(40): 








sock.sendto(str(x).encode('ascii'), ('localhost', 16000) 
resp = sock.recvfrom(8192) 
print (resp[0]) 


我 们 应 该 可 以 在 许多 不 同 的 窗口 中 重复 运行 这 个 程序 ， 这 人 么 做 不 会 使 其 他 的 程序 被 阻 
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塞 。 但 是 我 们 运行 的 程序 实例 越 多 ， 它 运行 的 速度 也 会 越 来 越 慢 。 

读 完 这 一 节 后 你 会 考虑 使 用 这 样 的 代码 吗 ? 很 可 能 不 会 。 相 反 ， 应 该 找 一 个 功能 完备 
的 框架 来 完成 同样 的 任务 。 但 是 ， 如 果 理 解 了 本 节 提 到 的 基本 概念 ， 就 能 理解 这 样 的 
框架 所 采用 的 核心 技术 。 作 为 基于 回调 的 编程 模型 的 蔡 代 方案 ， 有 时 候 也 会 在 事件 驱 
动 型 代码 中 使 用 协 程 。 请 参见 12.12 节 中 的 示例 。 






































11.13 发送 和 接收 大 型 数组 


11.13.1 问题 

我 们 想 通 过 网 络 连接 发 送 和 接收 大 型 数组 ， 其 中 的 数据 都 是 连续 的 ， 并 且 要 求 尽 可 能 
少 地 对 数据 进行 拷贝 。 

11.13.2 ”解决 方案 

下 面 的 函数 利用 memoryview 对 大 型 数组 进行 发 送 和 接收 : 


# zerocopy.py 


























def send froml(arr, dest): 
view = memoryview(arr) .cast('B') 
while len (view): 
nsent = dest .send (view) 


view = view[nsent:] 


def recv_into(arr, source): 
view = memoryview(arr) .cast ('B') 
while len(view): 
nrecv = source.recv_into (view) 


view = view[nrecv:] 


要 测试 这 个 程序 ， 首 先 创建 一 个 服务 器 和 客户 端 程序 ， 它 们 之 间 通 过 socket 进行 连接 。 
服务 器 端的 代码 如 下 : 


>>> from socket import * 
>>> s = socket (AF_INET, SOCK_STREAM) 
>>> s.bind(('', 25000) ) 


>>> s.listen(1) 





>>> cra = s.accept () 
>> 


KP IRBE 在 男 一 个 单独 的 解释 器 中 运行 ): 
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>>> from socket import * 

>>> c = socket (AF_INET, SOCK_STREAM) 
>>> c.connect (('localhost', 25000) ) 
>>> 


现在 来 看 看 本 节 所 关注 的 主要 问题 : 可 以 在 网 络 连接 上 传输 大 型 的 数组 。 这 种 情况 下 ， 
数组 可 以 通过 array 模块 或 者 numpy 来 创建 。 示 例如 下 : 


# Server 





























>>> import numpy 
>>> a = numpy.arange(0.0, 50000000.0) 
>>> send _from(a, c) 


>>> 


# Client 

>>> import numpy 

>>> a = numpy.zeros(shape=50000000, dtype=float) 
>>> a[0:10] 

array ([ “0a Dey Oey. Deyo Oey Ory O07. Oey Oe Oi.) 


>>> recv_into(a, c) 


>>> a[0:10] 
atray (i Osy Hey 2er Siig Fey Der bap Teg’ Bag aN) 
>>> 


11.13.3 ”讨论 
在 数据 密集 型 的 分 布 式 计算 以 及 采用 并 行 编程 技术 的 应 用 程序 中 ， 编 写 需 要 发 送 和 接 
收 大 型 数据 块 的 程序 是 很 常见 的 。 但 是 为 了 实现 这 个 目标 ， 需 要 以 某 种 方式 将 数据 还 
原 为 原始 的 字 节 给 底层 的 网 络 接口 所 用 。 我 们 可 能 还 需要 将 数据 分 片 为 较 小 的 块 ， 
为 大 部 分 与 网 络 相关 的 函数 都 无 法 一 次 性 发 送 或 者 接收 超大 型 的 数据 块 。 
一 种 方法 是 以 某 种 方式 将 数据 进行 序列 化 处 理 一 一 可 能 是 将 其 转换 为 字 节 串 的 形式 。 
但 是 ， 这 么 做 通常 都 要 对 数据 进行 找 贝 ， 这 正 是 我 们 极力 避免 的 。 就 算 我 们 将 数据 逐 
块 进行 拷贝 ， 代 码 中 还 是 会 产生 大 量 的 小 块 拷贝 操作 。 
本 节 提 到 的 技术 对 这 个 问题 进行 了 7 规避， 这 是 通过 利用 memoryview 来 实现 的 一 个 技 
巧 。 从 本 质 上 来 说 ，memoryview 就 是 对 已 有 数组 的 一 层 覆 盖 。 不 仅 是 这 样 ，memoryview 
还 可 以 转型 为 不 同 的 类 型 ， 允 许 数据 根据 不 同 的 方式 进行 解释 。 这 正 是 下 列 语句 的 用 
意 所 在 : 

view = memoryview (arr) .cast ('B') 
上 面 的 语句 接受 一 个 数组 arr， 并 将 其 转型 为 无 符号 字 节 的 memoryview。 
这 种 形式 的 memoryview 可 以 传递 给 与 socket 相关 的 函数 ， 比 如 sock.send0 或 者 
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send.recv_into0。 在 底层 ， 这 些 方法 可 以 直接 同 内 存 打交道 。 比 如 ，sock.send0 直 接 从 
内 存 中 发 送 数据 ， 不 需要 进行 拷贝 。 针 对 接收 操作 ，send.recv_into0 会 将 memoryview 
作为 输入 缓冲 区 来 使 用 。 
避免 内 存 拷贝 的 问题 解决 了 ， 剩 下 的 问题 就 主要 归结 在 与 socket 相关 的 函数 一 次 只 能 
处 理 一 部 分 数据 上 。 一 般 来 说 ， 需 要 调用 多 次 send0 和 recv_into0 才 能 将 整个 数组 传输 
完毕 。 别 担心 ， 每 次 操作 后 ，memoryview 都 会 根据 已 经 发 送 或 者 接收 的 字 节 数 做 切片 
处 理 ， 以 产生 一 个 新 的 memoryview。 这 个 新 的 memoryview 同样 也 是 一 个 内 存 覆 盖 层 ， 
因此 根本 不 会 产生 任何 拷贝 。 

这 里 还 有 一 个 问题 就 是 接收 方 需要 预先 知道 要 对 方 要 发 送 多 少数 据 ， 这 样 接收 方才 可 
以 预 分 配 一 个 相应 的 数组 , 或 者 验证 是 否 可 以 将 接收 到 的 数据 直接 放 入 已 有 的 数组 中 。 
如 果 这 对 你 来 说 存在 问题 ， 那 么 可 以 让 发 送 方 总 是 先 发 送 数据 的 大 小 ， 后 面 再 跟着 数 
组 数据 。 
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并 发 





Python 很 早 就 开始 支持 多 种 不 同 的 并 发 编程 方法 ， 包 括 多 线程 、 加 载 子 进程 以 及 各 种 
涉及 生成 右 函 数 的 技巧 。 在 本 童 中 ， 我 们 会 谈 到 有 关 并 发 编程 的 方方面面 ， 包 括 常 见 
的 多 线程 编程 技术 以 及 实现 并 行 处 理 的 方法 。 
有 经 验 的 程序 员 都 应 该 知道 ， 并 发 编程 中 充满 了 潜在 的 危险 。 因 此 ， 本 音 的 重点 在 于 
引导 大 家 编写 出 更 可 靠 以 及 更 易于 调试 的 代码 。 
























































12.1 启动 和 停止 线程 


12.1.1 问题 
为 了 让 代码 能 够 并 发 执行 ， 我 们 想 创建 线 程 并 在 合适 的 时 候 销 毁 。 


12.1.2 解决 方案 

threading 库 可 用 来 在 单独 的 线程 中 执行 任意 的 Python 可 调用 对 象 。 要 实现 这 一 要 
求 , 可 以 创建 一 个 Thread 实例 并 为 它 提 供 期 望 执行 的 可 调用 对 象 。 下 面 是 一 个 简单 
的 示例 : 


# Code to execute in an independent thread 
































import time 
def countdown (n) : 
while n > 0: 
print ('T-minus', n) 
n-=1 


time.sleep (5) 


# Create and launch a thread 
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from threading import Thread 
t = Thread(target=countdown, args=(10,)) 
t.start () 


当 创建 一 个 线程 实例 时 ,在 调用 它 的 start() 方 法 之 前 (需要 提供 目标 函数 以 及 相应 的 参 
数 )， 线 程 并 不 会 立刻 开始 执行 。 

线程 实例 会 在 它们 自己 所 属 的 系统 级 线程 ( 即 ， POSIX 线程 或 Windows 线程 ) 中 执 
行 ， 这 些 线程 完全 由 操作 系统 来 管理 。 一 旦 启动 后 ， 线 程 就 开始 独立 地 运行 ， 直 到 目 
标 函 数 返回 为 止 。 可 以 查询 线程 实例 来 判断 它 是 否 还 在 运行 : 


if t.is_alive(): 






































print ('Still running') 
else: 
print ('Completed') 


也 可 以 请 求 连接 (join) 到 某 个 线程 上 ， 这 么 做 会 等 待 该 线程 结束 : 


t. join() 


解释 器 会 一 直 保持 运行 ， 直 到 所 有 的 线程 都 终结 为 止 。 对 于 需要 长 时 间 运 行 的 线程 或 
者 一 直 不 断 运 行 的 后 台 任 务 , 应 该 考虑 将 这 些 线程 设置 为 daemon (Bil, 守护 线程 )。 示 
例如 下 : 


t = Thread (target=countdown, args=(10,), daemon=True) 
t.start () 


daemon 线程 是 无 法 被 连接 的 。 但 是 ， 当 主线 程 结 束 后 它们 会 自动 销毁 掉 。 
除了 以 上 展示 的 两 种 操作 外 ， 对 于 线程 没有 太 多 别 的 操作 可 做 了 。 比 如 说 ,终止 线程 、 
给 线程 发 信号 、 调 整 线程 调度 属性 以 及 执行 任何 其 他 的 高 级 操作 ， 这 些 功 能 都 没有 。 
如 果 想 要 这 些 功 能 ， 就 需要 自己 去 构建 。 
果 想 要 终止 线程 ， 这 个 线程 必须 要 能 够 在 某 个 指定 的 点 上 轮 询 退 出 状态 ， 这 就 需要 
编程 实现 。 比 如 ， 可 以 将 线程 放 到 下 面 这 样 的 类 中 : 

class CountdownTask: 


def _ init__(self): 


self._running = True 
















































































c= 
Oo 























def terminate (self): 


self._running = False 


def run(self, n): 
while self._running and n > 0: 


print ('T-minus', n) 








n-=1 


time.sleep (5) 


c = CountdownTask () 
t = Thread(target=c.run, args=(10,)) 


t.start () 
c.terminate () # Signal termination 
t.join() # Wait for actual termination (if needed) 


如 果 线 程 会 执行 阻塞 性 的 操作 比如 O, 那么 在 轮 询 线程 的 退出 状态 时 如 何 实现 同步 将 
变 得 很 杯 手 。 比 如 ， 某 个 线程 被 永远 阻塞 在 IO REET, 那么 它 就 永远 无 法 返回 ， 以 
需要 小 心地 为 线程 加 上 超时 循环 。 示 











检查 自己 是 否 要 被 终止 。 要 正确 处 理 这 个 问题 ， 


例如 下 : 


class IOTask: 
def terminate (self): 
self._running = False 


def run(self, sock): 
# sock is a socket 
sock.settimeout (5) 
while self._running: 


# Set timeout period 


# Perform a blocking I/O operation w/ timeout 


try: 
data = sock.recv (8192) 
break 

except socket.timeout: 
continue 


# Continued processing 


# Terminated 
return 


12.1.3 ”讨论 





由 于 全 局 解释 器 锁 (GIL ) 的 存在 ， Python 线程 的 执行 模型 被 限制 为 在 任意 时 刻 只 允许 


在 解释 器 中 运行 一 个 线程 。 基 于 这 个 原因 ， 不 应 该 使 用 Python 线程 来 处 到 
的 任务 ， 因 为 在 这 种 任务 中 我 们 希望 在 多 个 CPU 核心 上 实现 并 行 处 理 。Python 线程 更 
适合 于 VO 处 理 以 及 涉及 阻塞 操作 的 并 发 执行 任务 ( 即 ， 等 待 WO、 等 待 从 数据 库 中 取 


























出 结果 等 )。 


有 时 候 我 们 会 发 现 从 Thread 类 中 继承 而 来 的 线 和 


from threading import Thread 


FAG 





Eo 


比如 : 


DHARE 








FIJ 
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class CountdownThread (Thread) : 
def init__(self, n): 
super().__init__() 
self.n = 0 
def run(self): 
while self.n > 0: 
print ('T-minus', self.n) 
self.n -= 1 
time.sleep (5) 


c = CountdownThread (5) 


c. start () 


尽管 这 么 做 也 能 完成 任务 , 但 这 在 代码 和 threading 库 之 间 引 入 了 一 层 额 外 的 依赖 关系 。 
意思 就 是 说 ， 上 面 的 代码 只 能 用 在 有 关 线 程 的 上 下 文中 ， 而 我 们 之 前 展示 的 技术 中 编 
写 的 代码 并 不 会 显 式 依赖 于 threading 库 。 把 代码 从 这 种 依赖 关系 中 解放 出 来 ， 那 么 就 
可 以 使 代码 在 其 他 可 能 不 会 涉及 线程 的 上 下 文中 也 能 得 到 重用 。 比 如 ， 我 们 可 能 会 利 
用 multiprocessing 模块 让 代码 在 单独 的 进程 中 运行 ， 代 码 看 起 来 是 这 样 的 : 


import multiprocessing 





























c = CountdownTask (5) 
p = multiprocessing.Process (target=c. run) 


p.start () 

















次 申明 ， 这 只 会 在 CountdownTask 类 独立 于 任何 一 种 并 发 机 制 ( 线程、 进程 等 ) 
时 才 有 用 。 








12.2 ”判断 线程 是 否 已 经 启动 


12.2.1 问题 
我 们 已 经 加 载 了 一 个 线程 ， 但 是 想 知道 它 实际 会 在 什么 时 候 开 始 运 行 。 


12.2.2 解决 方案 

线程 的 核心 特征 就 是 它们 能 够 以 非 确 定性 的 方式 ( 即 ， 何 时 开始 执行 、 何 时 被 打 断 、 
何 时 恢复 执行 完全 由 操作 系统 来 调度 管理 ， 这 是 用 户 和 程序 员 都 无 法 确定 的 ) 独立 执 
行 。 如 果 程 序 中 有 其 他 线程 需要 判断 某 个 线程 是 否 已 经 到 达 执 行 过程 中 的 某 个 点 ， 根 
据 这 个 判断 来 执行 后 续 的 操作 ， 那 么 这 就 产生 了 非常 环 手 的 线程 同步 问题 。 要 解决 这 
类 问题 ， 我 们 可 以 使 用 threading 库 中 的 Event 对 象 。 




































































Event 对 象 和 条 件 标 记 ( sticky flag ) 类 似 ， 允 许 线程 等 待 某 个 事件 发 生 。 初 始 状态 时 事 
件 被 设置 为 0。 如果 事件 没有 被 设置 而 线程 正在 等 待 该 事件 , 那么 线程 就 会 被 阻塞 ( 即 ， 
进入 休眠 状态 )， 直 到 事件 被 设置 为 止 。 当 有 线程 设置 了 这 个 事件 时 ， 这 
在 等 待 该 事件 的 线程 ( 如 果 有 的 话 )。 如 果 线 程 等 待 的 事件 已 经 设置 了 ， 那 么 线程 会 

续 执 行 。 


面 给 出 了 一 个 简单 的 示例 ， 使 用 Event 来 同步 线程 的 启动 : 


from threading import Thread, Event 












































import time 


# Code to execute in an independent thread 
def countdown(n, started_evt): 
print ('countdown starting') 
started_evt.set () 
while n > 0: 
print ('T-minus', n) 
=1 
time.sleep (5) 


# Create the event object that will be used to signal startup 
started_evt = Event () 


# Launch the thread and pass the startup event 
print ('Launching countdown') 

t = Thread(target=countdown, args=(10,started_evt) ) 
t.start () 


# Wait for the thread to start 
started_evt.wait () 


print ('countdown is running') 


当 运 行 这 段 代 码 时 ， 字 符 串 “countdown is running” 总 是 会 在 “countdown starting” Z 
后 显示 。 这 里 使 用 了 事件 来 同步 线程 ， 使 得 主线 程 等 待 ， 直 到 countdown) KA tT 
印 出 启动 信息 之 后 才 开 始 执行 。 


12.2.3 讨论 

Event 对 象 最 好 只 用 于 一 次 性 的 事件 。 也 就 是 说 ,我 们 创建 一 个 事件 ， 让 线程 等 待 事件 
被 设置 , 然后 一 旦 完成 了 设置 , Event 对 象 就 被 丢弃 。 尽管 可 以 使 用 Event 对 象 的 clear0 
方法 来 清除 事件 , 但 是 要 安全 地 清除 事件 并 等 待 它 被 再 次 设置 这 个 过 程 很 难 同步 协调 ， 
可 能 会 造成 事件 丢失 、 死 锁 或 者 其 他 的 问题 ( 特别 是 ， 在 设 定 完事 件 之 后 ， 我 们 无 法 
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保证 发 起 的 事件 清除 请 求 就 一 定 会 在 线程 再 次 等 待 该 事件 之 前 被 执行 ) 。 























如 果 线 程 打算 一 遍 又 一 遍地 重复 通知 某 个 事件 ， 那 最 好 使 用 Condition 对 象 来 处 理 。 比 





如 ， 下 面 的 代码 实现 了 一 个 周期 性 的 定时 器 ， 每 当 定 时 吉 超 时 时 ， 其 他 的 线程 都 可 以 
感知 到 超时 事件 : 


import threading 





import time 


class PeriodicTimer: 


def 


def 


def 


__init__ (self, interval): 
self._interval = interval 
self._flag = 0 

self._cv = threading.Condition () 


start (self): 

t = threading. Thread (target=self.run) 
t.daemon = True 

t.start () 


run (self): 


one 


Run the timer and notify waiting threads after each interval 
ren 
while True: 
time.sleep(self._interval) 
with self._cv: 
self._flag *= 1 
self._cv.notify_all() 


def wait_for_tick(self): 


ver 


Wait for the next tick of the timer 


ver 


with self._cv: 


last_flag = self._flag 
while last_flag == self._flag: 
self._cv.wait () 


# Example use of the timer 


ptimer 


ptimer. 


= PeriodicTimer (5) 
start () 


# Two threads that synchronize on the timer 














”因为 无 法 保证 发 起 清除 事件 请 求 的 线程 和 再 次 等 待 该 事件 的 线程 间 的 执行 顺序 。 一 一 译 者 注 











并 发 
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def countdown (nticks): 
while nticks > 0: 
ptimer.wait_for_tick () 
print ('T-minus', nticks) 
nticks -= 1 


def countup (last): 
n=0 
while n < last: 
ptimer.wait_for_tick () 
print ('Counting', n) 
n+=1 


threading.Thread (target=countdown, args=(10,)).start () 
threading.Thread (target=countup, args=(5,)).start () 


Event 对 象 的 关键 特性 就 是 它 会 唤醒 所 有 等 待 的 线程 。 如 果 我 们 编写 的 程序 只 希望 唤醒 
一 个 单独 的 等 待 线 程 ， 那 么 最 好 使 用 Semaphore 或 者 Condition 对 象 。 


比方 说 ， 考 虑 下 面 使 用 了 信号 量 (semaphore ) 的 代码 : 


# Worker thread 
def worker(n, sema): 
# Wait to be signaled 
























































sema.acquire() 
# Do some work 
print ('Working', n) 


# Create some threads 

sema = threading. Semaphore (0) 

nworkers = 10 

for n in range (nworkers) : 
t = threading.Thread(target=worker, args=(n, sema,)) 
t.start () 


执行 上 面 的 程序 会 启动 一 系列 的 线程 ， 但 是 什么 也 不 会 发 生 。 这 些 线程 都 会 因为 等 待 
获取 信号 量 而 被 阻塞 。 每 次 释放 信号 量 时 ， 只 有 一 个 工作 者 线程 会 被 唤醒 并 投入 运行 。 
示例 如 下 : 


>>> sema.release() 





























Working 0 

>>> sema.release () 
Working 1 

>> 


如 果 编 写 的 代码 中 涉及 许多 线程 间 同 步 的 技巧 ， 那 么 很 容易 就 会 让 自己 的 脑袋 转 尝 。 
一 个 更 为 明智 的 做 法 是 利用 队列 或 者 actor 模式 来 完成 线程 间 的 通信 任务 。 队 列 将 在 下 
一 节 中 描述 。actor 模式 将 在 12.10 节 中 讲解 。 
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12.3 ”线程 间 通 信 


12.3.1 问题 
我 们 的 程序 中 有 多 个 线程 ， 我 们 想 在 这 些 线程 之 间 实 现 安全 的 通信 或 者 交换 数据 。 


12.3.2 ”解决 方案 

也 许 将 数据 从 一 个 线程 发 往 男 一 个 线程 最 安全 的 做 法 就 是 使 用 queue 模块 中 的 Queue 
(队列 ) 了。 要 做 到 这 些 ， 首 先 创 建 一 个 Queue 实例 ， 它 会 被 所 有 的 线程 共享 。 之 后 线 
程 可 以 使 用 put0 或 者 get0 操 作 来 给 队列 添加 或 移 除 元 素 。 示 例如 下 : 


from queue import Queue 























from threading import Thread 


# A thread that produces data 
def producer (out_q) : 
while True: 
# Produce some data 


out_q.put (data) 


# A thread that consumes data 
def consumer (in_d) : 
while True: 
# Get some data 
data = in_q.get () 
# Process the data 


# Create the shared queue and launch both threads 
q = Queue () 

tl = Thread(target=consumer, args=(q,)) 

t2 = Thread(target=producer, args=(q,)) 
tl.start () 

t2.start () 


Queue 实例 已 经 拥有 了 所 有 所 需 的 锁 ， 因 此 它们 可 以 安全 地 在 任意 多 的 线程 之 间 共 享 。 


当 使 用 队列 时 ， 如 何 对 生产 者 (producer ) 和 消费 者 ( consumer ) 的 关闭 过 程 进行 同步 
协调 需要 用 到 一 些 技巧 。 这 个 问题 的 一 般 解 决 方法 是 使 用 一 个 特殊 的 终止 值 ， 当 我 们 
将 它 放 入 队列 中 时 就 使 消费 者 退出 。 示 例如 下 : 


from queue import Queue 





























from threading import Thread 


# Object that signals shutdown 
_sentinel = object () 


# A thread that produces data 
def producer (out_q): 
while running: 


# Produce some data 
out_q.put (data) 


# Put the sentinel on the queue to indicate completion 


out_q.put (_sentinel) 


# A thread that consumes data 
def consumer (in_q): 
while True: 
# Get some data 
data = in_g.get() 


# Check for termination 

if data is _sentinel: 
in_q.put (_sentinel) 
break 


# Process the data 

















这 个 示例 中 有 一 个 很 微妙 的 功能 ， 那 就 是 当 消费 者 接收 到 这 个 特殊 的 终止 值 后 ， 会 立 
刻 将 其 重新 放 回 到 队列 中 。 这 么 做 使 得 在 同一 个 队列 上 监听 的 其 他 消费 者 线程 也 能 接 
收 到 终止 值 一 一 因此 可 以 一 个 一 个 地 将 它们 都 关闭 掉 。 

尽管 队列 是 线程 间 通 信 的 最 常见 的 机 制 ， 但 是 只 要 添加 了 所 需 的 锁 和 同步 功能 ， 就 可 
以 构建 自己 的 线程 安全 型 的 数据 结构 。 最 常见 的 做 法 是 将 你 的 数据 结构 和 条 件 变量 打 
包 在 一 起 。 比 如 ， 下 面 的 示例 构建 了 一 个 线程 安全 的 优先 级 队列 。 关 于 优先 级 队列 我 
们 在 1.5 节 中 已 经 讨论 过 。 


import heapq 









































import threading 


class PriorityQueue: 
def _ init__(self): 
self._queue = [] 
self._count = 0 
self._cv = threading.Condition () 
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通过 队列 实现 的 线程 间 通 信和 是 一 种 单方 向 且 不 确 
接收 线程 (也 就 是 消费 者 ) 何 时 会 实际 接收 到 消息 并 开始 工作 。 但 是 ，Queue 对 象 的 确 
提供 了 一 些 基本 的 事件 完成 功能 (completion feature )。 下 面 的 示例 通过 task_done()Fil 
join0 方 法 对 此 进行 了 说 明 : 


def put (self, item, priority): 
with self._cv: 
heapq.heappush(self._queue, (-priority, self._count, item) ) 
self._count += 1 
self._cv.notify() 


def get (self): 
with self._cv: 
while len(self._queue) == 
self._cv.wait () 
return heapg.heappop (self._queue) [-1] 









































from queue import Queue 
from threading import Thread 


# A thread that produces data 
def producer (out_q): 
while running: 


# Produce some data 
out_q.put (data) 


# A thread that consumes data 
def consumer (in_q): 
while True: 
# Get some data 
data = in_q.get() 
# Process the data 


# Indicate completion 


in_q.task_done() 


# Create the shared queue and launch both threads 
q = Queue () 

tl = Thread(target=consumer, args=(q,)) 

t2 = Thread(target=producer, args=(q,)) 
tl.start () 

t2.start () 


# Wait for all produced items to be consumed 


q. join () 


定 的 过 程 。 一 般 来 说 ， 我 们 无 法 得 知 
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当 消 费 者 线程 已 经 处 理 了 茶 项 特定 的 数据 ， 而 生产 者 线程 需要 对 此 立刻 感知 的 话 ， 那 
么 就 应 该 将 发 送 的 数据 和 一 个 Event 对 象 配对 在 一 起 , 这 样 就 允许 生产 者 线程 可 以 监视 
这 一 过 程 。 示 例如 下 : 


from queue import Queue 








from threading import Thread, Event 


# A thread that produces data 
def producer (out_q): 
while running: 


# Produce some data 


# Make an (data, event) pair and hand it to the consumer 
evt = Event () 
out_q.put ( (data, evt)) 


# Wait for the consumer to process the item 
evt .wait () 


# A thread that consumes data 
def consumer (in_q): 
while True: 
# Get some data 
data, evt = in_q.get() 
# Process the data 


# Indicate completion 
evt.set () 


12.3.3 ”讨论 

把 多 线程 程序 按照 简单 的 队列 机 制 来 实现 ， 这 对 于 保持 程序 的 清晰 性 而 言 通常 是 一 种 
不 错 的 方式 。 如 果 可 以 把 所 有 的 任务 都 分 解 成 用 简单 的 线程 安全 型 队列 来 处 理 ， 就 会 
发 现 不 需要 用 锁 和 其 他 的 底层 同步 原 语 把 程序 弄 得 一 团 粮 了。 此 外 ， 使 用 队列 进行 通 
信 常 常 使 得 程序 的 设计 可 以 在 稍 后 扩展 到 其 他 类 型 的 基于 消息 通信 的 模式 上 。 例 如 ， 
可 以 将 程序 分 解 为 多 个 进程 ， 甚 至 做 成 分 布 式 系统 ， 而 这 一 切 都 不 需要 对 底层 基于 队 
列 的 架构 做 大 的 改动 。 

个 值得 注意 的 地 方 是 ， 在 线程 中 使 用 队列 时 ， 将 某 个 数据 放 入 队列 并 不 会 产生 该 数 
据 的 拷贝 。 因 此 ， 通 信 过 程 实际 上 涉及 在 不 同 的 线程 间 传 递 对 象 的 引用 。 如 果 需 要 关 
心 共享 状态 ， 那 么 只 传递 不 可 变 的 数据 结构 ( 即 ， 整 数 、 字 符 串 或 者 元 组 )， 要 么 就 对 
排队 的 数据 做 深 拷 贝 ， 这 就 显得 合情合理 了 。 示 例如 下 : 


from queue import Queue 


































































































from threading import Thread 
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import copy 


# A thread that produces data 
def producer (out_q): 
while True: 


# Produce some data 
out_q.put (copy. deepcopy (data) ) 


# A thread that consumes data 
def consumer (in_q): 
while True: 
# Get some data 
data = in_q.get() 
# Process the data 























Queue 对 象 提供 的 一 些 额 外 功能 被 证 明 在 特定 的 上 下 文中 是 有 帮助 的 。 如 果 通 过 一 个 可 
选 的 大 小 参数 来 创建 Queue 对 象 ， 例如 Queue(N), 那么 这 就 在 put0 操 作 阻塞 生产 者 线 
程 之 前 对 可 以 入 队列 的 元 素 个 数 进行 了 限制 。 如 果 在 生产 者 产生 数据 和 消费 者 处 理 数 
据 的 速度 上 存在 差异 时 , 给 队列 可 容纳 的 元 素 个 数 设 定 一 个 上 限 值 就 显得 很 有 意义 了 。 
例如 ， 如 果 生 产 者 产生 数据 的 速度 比 消费 数据 的 速度 快 得 多 时 。 男 一 方面 ， 当 队列 满 
时 将 其 阻塞 同样 也 会 在 程序 中 产生 意外 的 连锁 效应 ， 可 能 导致 出 现 死 锁 或 者 运行 效率 
低下 。 总 的 来 说 ， 线 程 间 通 信 的 控制 流 是 一 个 看 似 简单 实则 困难 的 问题 。 如 果 曾 经 发 
现 自 己 试图 通过 调整 队列 的 大 小 来 修正 问题 ， 那 么 这 就 表明 程序 的 设计 不 够 健壮 或 者 
存在 固有 的 扩展 问题 。 

get0 和 put( 方 法 都 支持 非 阻 塞 和 超时 机 制 。 示 例如 下 : 


import queue 



































q = queue.Queue () 


try: 
data = q.get (block=False) 
except queue.Empty: 


try: 
q.put (item, block=False) 
except queue.Full: 


try: 
data = q.get (timeout=5.0) 
except queue.Empty: 























这 两 种 机 制 都 可 用 来 避免 在 特定 的 队列 操作 上 无 限期 阻塞 下 去 的 问题 。 比 如 ， 可 以 用 
非 阻塞 的 putO 配 合 国定 大 小 的 队列 来 实现 当 队 列 满 时 不 同类 型 的 处 理 方法 。 比 如 ， 可 
以 生成 一 条 日 志 信息 然后 将 数据 丢弃 : 
def producer (q) : 
i 
q.put (item, block=False) 


except queue.Full: 


log.warning('queued item sr discarded!', item) 


如 有 果 想 让 消费 者 线程 周期 性 地 放弃 q.getO0 这 样 的 操作 ， 以 便于 它们 检查 类 似 结束 标记 
(termination flag, 见 12.1 节 ) 这 样 的 情况 ， 那 么 超时 机 制 是 很 有 用 的 。 


_running = True 
































def consumer (q) : 
while _running: 
try: 
item = q.get (timeout=5.0) 


# Process item 


except queue.Empty: 
pass 





最 后 ， 这 里 还 有 一 些 很 实用 的 方法 ， 比 如 q.qsize0 、q.fulO 、q.empty0， 它 们 能 够 告诉 
我 们 队列 的 当前 大 小 和 状态 。 但 是 ,请 注意 所 有 这 些 方法 在 多 线程 环境 中 都 是 不 可 靠 
的 。 例如， 对 q.empty0 的 调用 可 能 会 告诉 我 们 队列 是 空 的， 但 是 在 完成 这 个 调用 的 同 
时 ， 另 一 个 线程 可 能 已 经 往 队 列 中 添加 了 一 个 元 素 。 坦 白 讲 ， 在 编写 代码 时 最 好 不 要 














12.4 对 临界 区 加 锁 


12.4.1 问题 

我 们 的 程序 用 到 了 多 线程 ， 我 们 想 对 临界 区 进行 加 锁 处 理 以 避免 出 现 竞 态 条 件 (race 
condition ). 

12.4.2 ”解决 方案 


要 想 让 可 变 对 象 安 全 地 用 在 多 线程 环境 中 ,可 以 利用 threading 库 中 的 Lock 对 象 来 解决 ， 
示例 如 下 : 
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import threading 


class SharedCounter: 


oer 


A counter object that can be shared by multiple threads. 
TET 
def _init_ (self, initial_value = 0): 

self._value = initial_value 

self._value_lock = threading.Lock () 


def incr(self,delta=1): 


mr 


Increment the counter with locking 
pee 
with self. value_lock: 

self._value += delta 


def decr(self,delta=1): 


WEE 
Decrement the counter with locking 
FOF 
with self. value_lock: 
self._value -= delta 

















当 使 用 with 语句 时 ，Lock 对 象 可 确保 产生 互 斥 的 行为 一 一 也 就 是 说 ， 同 一 时 间 只 允许 
一 个 线程 执行 with 语句 块 中 的 代码 。with 语句 会 在 执行 缩 进 的 代码 块 时 获取 到 锁 ， 当 
控制 流离 开 缩 进 的 语句 块 时 释放 这 个 锁 。 


12.4.3 ”讨论 

线程 的 调度 从 本 质 上 来 说 是 非 确定 性 的 。 正 因为 如 此 ， 在 多 线程 程序 中 如 果 不 用 好 锁 
就 会 使 得 数据 被 随机 地 破坏 掉 ， 以 及 产生 我 们 称 之 为 竞 态 条 件 的 奇怪 行为 。 要 避免 这 
些 问题 ， 只 要 共享 的 可 变 状态 需要 被 多 个 线程 访问 ， 那 么 就 得 使 用 锁 。 

在 比较 老 的 Python 代码 中 ， 我 们 常会 看 到 显 式 地 获取 和 释放 锁 的 动作 。 例 如 ， 对 上 面 
的 例子 稍 作 修 改 : 


import threading 

















class SharedCounter: 


mr 


A counter object that can be shared by multiple threads. 
EEI 
def _init_ (self, initial_value = 0): 

self._value = initial_value 

self._value_lock = threading.Lock () 








采用 with 语句 会 更 加 优雅 ， 也 不 容易 出 错 


def incr(self,delta=1): 


mer 


Increment the counter with locking 
pee 

self._value_lock.acquire () 
self._value += delta 
self._value_lock. release () 


def decr(self,delta=1): 


pee 


Decrement the counter with locking 
her 

self._value_lock.acquire () 
self._value -= delta 
self._value_lock. release () 





























尤其 是 如 果 程 序 刚好 在 持 有 锁 的 时 候 抛 




















出 了 异常 ， 而 程序 员 可 能 忘记 去 调用 release() 方 法 时 更 是 如 此 (在 这 两 种 情况 下 ，with 
语句 会 确保 总 是 释放 锁 )。 
要 避免 可 能 出 现 的 死 锁 ， 用 到 了 锁 的 程序 应 该 以 这 样 的 方式 来 编写 ， 即 ， 每 个 线程 一 
次 只 允许 获取 一 把 锁 。 如 果 无 法 做 到 ， 我 们 可 能 需要 在 程序 中 引入 更 为 高 级 的 避免 死 
锁 的 技术 ， 我 们 将 在 12.5 节 中 进一步 讨论 。 
在 threading 库 中 我 们 会 发 现 还 有 其 他 的 同步 原 语 ， 比 如 RLock 和 Semaphore 对 象 。 一 


般 来 说 ， 这 些 对 象 都 有 特殊 的 用 途 ， 不 应 该 用 这 些 对 象 对 可 变 状 态 做 简单 的 加 锁 处 理 。 









































RLock 被 称 为 可 重 入 锁 ， 它 可 以 被 同一 个 线程 多 次 获取 ， 主 要 用 来 编写 基于 锁 的 代码 ， 
或 者 基于 “监视 器 ”的 同步 处 理 。 当 某 个 类 
使 用 类 中 的 全 部 函数 或 者 方法 。 例 如 ， 可 以 将 SharedCounter 类 实现 为 如 下 形式 : 





import threading 


class SharedCounter: 


meer 














持 有 这 种 类 型 的 锁 时 ， 只 有 一 个 线程 可 以 


A counter object that can be shared by multiple threads. 


pre 
_lock = threading.RLock () 
def init__(self, initial_value = 0): 


self. value = initial_value 


def incr(self,delta=1): 


nee 


Increment the counter with locking 


mee 


with SharedCounter._lock: 
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self._value += delta 


def decr(self,delta=1): 
mbt 
Decrement the counter with locking 


with SharedCounter._lock: 


self.incr (-delta) 


这 份 代码 中 只 有 一 个 作用 于 整个 类 的 锁 ， 它 被 所 有 的 类 实例 所 共享 。 不 再 将 锁 绑 定 到 
每 个 实例 的 可 变 状态 上 ， 现 在 这 个 锁 是 用 来 同步 类 中 的 方法 的 。 具 体 来 说 ， 这 个 锁 可 
确保 每 次 只 有 一 个 线程 可 以 使 用 类 中 的 方法 。 但 是 和 标准 的 锁 不 同 的 地 方 在 于 ， 对 于 
已 经 持 有 了 锁 的 方法 可 以 调用 同样 使 用 了 这 个 锁 的 其 他 方法 ( 参考 decr() 方 法 的 实现 )。 
这 个 实现 的 特点 之 一 是 无 论 创建 了 多 少 个 counter 实例 ， 都 只 会 有 一 个 锁 存 在 。 因 此 ， 当 
有 大 量 counter 对 象 存在 时 , 这 种 方法 对 内 存 的 使 用 效率 要 高 很 多 。 但 是 , 可 能 存在 的 缺点 
是 在 使 用 了 大 量 线程 旦 需要 频繁 更 新 counter 的 程序 中 ， 这 么 做 会 产生 更 多 的 锁 争 用 问题 。 


Semaphore 对 象 是 一 种 基于 共享 计数 需 的 同步 原 语 。 如 果 计 数 器 非 零 ， 那 么 with 语句 
会 递减 计数 器 并 且 人 允许 线程 继续 执行 。 当 with 语句 块 结束 时 计数 器 会 得 到 递增 。 如 果 
计数 需 为 零 ， 那 么 执行 过 程 会 被 阻塞 ， 直 到 由 另 一 个 线程 来 递增 计数 器 为 止 。 尽 管 
Semaphore 可 以 和 标准 的 Lock 对 象 一 样 以 相同 的 方式 来 使 用 ， 但 是 由 于 Semaphore 的 
实现 更 为 复杂 , 这 会 对 程序 的 性 能 带 来 负面 影响 。 除 了 简单 的 加 锁 功 能 之 外 , Semaphore 
对 象 对 于 那些 涉及 在 线程 间 发 送信 号 或 者 需要 实现 节 流 (throttling ) 处 理 的 应 用 中 更 加 
有 用 。 例 如 ， 如 果 想 在 代码 中 限制 并 发 的 总 数 ， 可 以 使 用 Semaphore 来 处 理 : 


from threading import Semaphore 






























































































































































import urllib.request 


# At most, five threads allowed to run at once 
_fetch_url_sema = Semaphore (5) 


def fetch_url (url): 
with _fetch_url_sema: 
return urllib.request.urlopen (url) 


如 果 对 于 线程 同步 原 语 背后 的 理论 和 实现 感 兴趣 的 话 ， 可 以 参考 几乎 任何 一 本 有 关 操 
作 系 统 的 教科 书 。 





12.5 ”避免 死 锁 


12.5.1 问题 
我 们 正在 编写 一 个 多 线程 程序 ， 线 程 一 次 需要 获取 不 止 一 把 锁 ， 同 时 还 要 避免 出 现 死 锁 。 























12.5.2 ”解决 方案 

在 多 线程 程序 中 ， 出 现 死 锁 的 常见 原因 就 是 线程 一 次 尝试 获取 了 多 个 锁 。 人 例如， 如果 
有 一 个 线程 获取 到 第 一 个 锁 ， 但 是 在 尝试 获取 第 二 个 锁 时 阻塞 了 ， 那 么 这 个 线程 就 有 
可 能 会 阻塞 住 其 他 线程 的 执行 ， 进 而 使 得 整个 程序 僵 死 。 

避免 出 现 死 锁 的 一 种 解决 方案 就 是 给 程序 中 的 每 个 锁 分 配 一 个 唯一 的 数字 编号 ， 并 且 
在 获取 多 个 锁 时 只 按照 编号 的 升序 方式 来 获取 。 利 用 上 下 文 管理 器 来 实现 这 个 机 制 非 
常 简单 ， 示 例如 下 : 


import threading 


























from contextlib import contextmanager 


# Thread-local state to stored information on locks already acquired 
_local = threading.local () 


@contextmanager 
def acquire(*locks): 
# Sort locks by object identifier 
locks = sorted(locks, key=lambda x: id(x)) 


# Make sure lock order of previously acquired locks is not violated 

acquired = getattr(_local, 'acquired', []) 

if acquired and max(id(lock) for lock in acquired) >= id(locks[0]): 
raise RuntimeError ('Lock Order Violation') 


# Acquire all of the locks 
acquired.extend (locks) 
_local.acquired = acquired 
try: 
for lock in locks: 
lock. acquire () 
yield 
finally: 
# Release locks in reverse order of acquisition 
for lock in reversed(locks): 
lock. release () 
del acquired[-len (locks) :] 


pine as 理 器 ， 只 用 按照 正常 的 方式 来 分 配 锁 对 象 ， 但 是 当 想 同一 个 或 多 
锁 打 交道 时 就 使 用 acquire PARC. (4: 


import threading 











x_lock = threading. Lock () 
y_lock = threading. Lock () 
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def thread 1 (): 
while True: 
with acquire(x_lock, y_lock): 
print ('Thread-1') 


def thread_2(): 
while True: 
with acquire(y_lock, x_lock): 
print ('Thread-2') 





tl = threading.Thread(target=thread_1l) 
tl.daemon = True 

tl.start () 

t2 = threading. Thread (target=thread_2) 
t2.daemon = True 

t2.start () 











如 果 运 行 这 个 程序 ， 就 会 发 现 程序 运行 得 很 好 ， 而 且 永 远 不 会 出 现 死 锁 一 
个 函数 中 对 锁 的 获取 是 以 不 同 的 顺序 来 指定 的 。 

这 个 例子 的 关键 之 处 就 在 于 acquire0 函 数 的 第 一 条 语句 :根据 对 象 的 数字 编号 对 锁 进 行 
排序 。 通 过 对 锁 进 行 排序 , 无 论 用 户 按照 什么 顺序 将 锁 提 供给 acquire() PAA, 它们 总 是 
会 按照 统一 的 顺序 来 获取 。 


这 个 解决 方案 中 用 到 了 线程 本 地 存储 (thread-local storage ) 来 解决 一 个 小 问题 。 即 ， 如 
RALA acquired VERE TE— ie, 可 以 检测 可 能 存在 的 死 锁 情况 。 例 如 , 假设 编写 了 
如 下 的 代码 : 


import threading 


尽管 在 每 


















































x_lock = threading. Lock () 
y_lock = threading. Lock () 


def thread_1l(): 
while True: 
with acquire (x_lock): 
with acquire (y_lock): 
print ('Thread-1') 
def thread_2(): 
while True: 
with acquire (y_lock): 
with acquire (x_lock): 
print ('Thread-2') 


tl = threading. Thread (target=thread_1) 
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tl.daemon = True 
tl.start () 


t2 = threading.Thread(target=thread_2) 
t2.daemon = True 
t2.start () 


如 果 运 行 这 个 版 本 的 程序 ， 其 中 一 个 线程 将 会 因 抛 出 异常 而 崩 演 : 


Exception in thread Thread-1: 

Traceback (most recent call last): 

File "/usr/local/lib/python3.3/threading.py", line 639, in _bootstrap_inner 
self.run() 
File "/usr/local/lib/python3.3/threading.py", line 596, in run 
self._target (*self._args, **self._kwargs) 

File "deadlock.py", line 49, in thread_l 
with acquire (y_lock): 


File "/usr/local/lib/python3.3/contextlib.py", line 48, in _enter__ 





return next (self.gen) 








ile "deadlock.py", line 15, in acquire 
raise RuntimeError ("Lock Order Violation") 

RuntimeError: Lock Order Violation 

>>> 


这 个 骨 演 基于 这 样 一 个 事实 , 即 每 个 线程 都 会 记 住 它们 已 经 获取 到 的 锁 的 顺序 。acquire0 
函数 会 检查 之 前 获取 到 的 锁 的 列表 ， 并 对 锁 的 顺序 做 强制 性 的 约束 : 先 获取 到 的 锁 的 
对 象 ID 必须 比 后 获取 的 锁 的 ID 要 小 。 


12.5.3 ”讨论 

在 多 线程 程序 中 ， 死 锁 是 一 个 老生 常 谈 的 问题 ( 也 是 操作 系统 教科 书 上 的 常见 主题 )。 
基本 原则 就 是 ， 只 要 可 以 保证 线程 一 次 只 持 有 一 把 锁 ， 那 么 程序 就 不 会 出 现 死 锁 。 但 
是 ,一旦 在 同一 时 间 获 取 了 多 个 锁 ， 那 么 什么 事情 都 有 可 能 发 生 。 

检测 死 锁 和 从 死 锁 中 恢复 是 一 个 极其 棘手 的 问题 ， 而 且 也 很 少 有 优雅 的 解决 方案 。 
比方 说 ， 通 常用 来 检测 死 锁 和 恢复 的 方案 涉及 对 看 门 狗 定 时 器 的 使 用 。 随 着 线程 的 
运行 ， 它 们 会 周期 性 地 重 置 定时 器 ， 只 要 一 切 都 运行 正常 那么 就 丝 大 欢喜 。 但 是 ， 
如 果 程 序 中 出 现 死 锁 ， 看 门 狗 定时 器 最 终 就 会 超时 。 此 时 ， 程 序 就 通过 重新 启动 来 
完成 “恢复 "。 

而 避免 死 锁 采用 的 则 是 另 一 种 不 同 的 策略 ， 即 ， 以 一 种 根本 就 不 会 让 程序 进入 死 锁 状 
态 的 方式 来 使 用 锁 。 前 面 介绍 的 解决 方案 中 ， 总 是 严格 按照 对 象 ID 的 升序 来 获取 锁 ， 
这 个 方法 可 以 在 数学 上 证 明 能 够 避免 死 锁 状态 。 我 们 把 证 明 的 过 程 就 留 给 读者 当做 练 
习 吧 (要 点 就 是 ， 严 格 以 递增 的 顺序 来 获取 锁 就 不 会 出 现 锁 的 循环 依赖 ， 而 这 正 是 出 
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现 死 锁 的 必要 条 件 )。 

作为 最 后 一 个 例子 ， 我 们 将 讨论 一 个 经 典 的 线程 死 锁 问题 一 一 即 所 谓 的 “哲学 家 就 餐 
问题 ” 。 在 这 个 问题 中 ， 有 5 位 哲学 家 围 坐 在 桌 边 ， 桌 上 有 5 碗 米饭 和 5 LET. 
哲学 家 代表 着 一 个 独立 的 线程 ， 而 每 支 和 盒子 代表 一 把 锁 。 在 这 个 问题 中 ， 哲 学 家 要 么 
坐 着 思考 要 么 就 吃 米饭 。 但 是 ， 要 吃 到 米饭 ， 哲 学 家 需要 两 支 和 合子。 不 幸 的 是 ， 如 果 
所 有 的 哲学 家 都 伸手 拿 他 们 左手 边 的 那 支 簧 子 ， 那 么 他 们 只 能 全 都 坐 在 那里 ， 手 里 只 
GR SRF RARE. HEMT RR 


采用 我 们 前 面 的 解决 方案 ， 下 面 是 哲学 家 就 餐 问 题 的 简单 实现 ， 可 完全 避免 死 锁 : 


import threading 






































# The philosopher thread 
def philosopher (left, right): 
while True: 
with acquire (left, right): 
print (threading.currentThread(), 'eating') 


# The chopsticks (represented by locks) 
NSTICKS = 5 
chopsticks = [threading.Lock() for n in range (NSTICKS) ] 


# Create all of the philosophers 
for n in range (NSTICKS) : 
t = threading. Thread(target=philosopher, 
args=(chopsticks[n],chopsticks[ (n+l) % NSTICKS])) 
t.start () 


最 后 但 同样 值得 注意 的 是 ,为 了 避免 死 锁 ,所 有 的 锁 都 必须 使 用 我 们 前 面 给 出 的 acquire0 
函数 来 获取 。 如 果 某 些 代 码 片段 中 是 直接 获取 锁 的 ， 那 么 这 个 避免 死 锁 的 算法 就 不 能 
奏效 了 。 


12.6 ”保存 线程 专 有 状态 


12.6.1 问题 
我 们 需要 保存 当前 运行 线程 的 专 有 状态 ， 这 个 状态 对 其 他 线程 是 不 可 见 的 。 


126.2 ”解决 方案 
有 时 候 在 多 线程 程序 中 ， 我 们 需要 保存 专属 于 当前 运行 线程 的 状态 。 为 了 做 到 这 点 ， 
可 以 通过 threading.local0 来 创建 一 个 线程 本 地 存储 对 象 ,在 这 个 对 象 上 保存 和 读 取 的 属 












































生 只 对 当前 运行 的 线程 可 见 ， 其 他 线程 无 法 感知 。 

作为 使 用 线程 局 部 存储 的 一 个 有 趣 实例 ， 考 虑 一 下 LazyConnection 上 下 文 管理 器 类 ， 
我 们 在 8.3 节 中 首次 定义 了 这 个 类 。 下面 是 稍微 修改 过 的 版 本 ,可 以 安全 应 用 于 多 线程 
环境 中 : 


from socket import socket, AF_INET, SOCK_STREAM 
import threading 


—- 
| 














class LazyConnection: 
def _ init__(self, address, family=AF_INET, type=SOCK_STREAM) : 
self.address = address 
self.family = AF_INET 
self.type = SOCK_STREAM 
self.local = threading.loca 


def _ enter__ (self): 
if hasattr(self.local, 'sock'): 
raise RuntimeError ('Already connected') 


self.local.sock = socket (self.family, self.type) 








self.local.sock.connect (self.address) 
return self.local.sock 


def _ exit__(self, exc ty, exc_val, tb): 
self.local.sock.close() 





del self.local.sock 





ial 





在 这 份 代 码 中 ， 请 仔细 观察 对 selflocal 属性 的 使 用 。 它 被 初始 化 为 threading.local0 的 
实例 。 之 后 ， 其 他 方法 操作 的 socket 都 是 被 保存 为 self.local.sock 的 形式 。 这 就 足以 使 
得 LazyConnection 的 实例 可 以 安全 用 于 多 线程 环境 中 了 。 示 例如 下 : 


from functools import partial 
def test (conn): 
with conn as s: 
s.send(b'GET /index.html HTTP/1.0\r\n') 
s.send(b'Host: www.python.org\r\n') 
s.send(b'\r\n') 
resp = b''.join(iter(partial(s.recv, 8192), b'')) 

















print ('Got {} bytes'. format (len (resp) ) ) 


if _name_ == '_main_': 





conn = LazyConnection(('www.python.org', 80)) 


tl = threading.Thread(target=test, args=(conn,)) 
t2 


1 


Il 





threading. Thread(target=test, args=(conn, ) ) 
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tl.start () 
t2.start () 
t1.join() 
t2.join() 





这 么 做 能 正常 工作 的 原因 在 于 每 个 线程 实际 上 创建 了 自己 专属 的 socket 连接 (以 
self.local.sock 的 形式 保存 )。 因 此 ， 当 不 同 的 线程 在 socket 上 执行 操作 时 ， 它 们 并 不 会 
互相 产生 影响 ， 因 为 它们 都 是 在 不 同 的 socket 上 完成 操作 的 。 


12.6.3 讨论 

在 大 部 分 程序 中 ， 创 建 和 操作 线程 专 有 状态 都 不 会 出 现 什么 问题 。 但 是 万 一 出 现 问 题 
了 ， 通 常 是 因为 多 个 线程 使 用 了 同一 个 对 象 ， 而 该 对 象 需要 操作 某 种 系统 资源 ， 比 如 
说 socket 或 者 文件 。 我 们 不 能 让 一 个 单独 的 socket 对 象 被 所 有 线程 共享 ， 因 为 如 果 有 
多 个 线程 同时 对 socket 进行 读 或 写 ， 那么 就 会 出 现 混乱 。 线 程 专 有 存储 通过 让 这 种 资 
源 只 对 一 个 线程 可 见 ， 解决 了 这 个 问题 。 

在 本 节 示 例 中 ,使 用 threading.local0 使 得 LazyConnection 类 支持 每 个 线程 一 条 连接 ， 
而 不 是 之 前 的 整个 进程 就 一 条 连接 。 这 是 一 个 微妙 但 有 趣 的 区 别 。 

在 底层 , threading.local0 实 例 为 每 个 线程 维护 着 一 个 单独 的 实例 字典 。 所 有 对 实例 的 常 
见 操作 比如 获取 、 设 定 以 及 删除 都 只 是 作用 于 每 个 线程 专 有 的 字典 上 。 每 个 线程 使 用 
一 个 单独 的 字典 ， 正 是 这 一 事实 使 得 不 同 线程 的 数据 得 到 隔离 。 






















































































12.7 创建 线程 池 


12.7.1 问题 
我 们 想 创建 一 个 工作 者 线程 池 用 来 处 理 客户 端 连接 ， 或 者 完成 其 他 类 型 的 工作 。 


12.7.2 ”解决 方案 
concurrent.futures 库 中 包含 有 一 个 ThreadPoolExecutor 类 可 用 来 实现 这 个 目的 。 下 面 的 
示例 是 一 个 简单 的 TCP 服务 器 ， 使 用 线程 池 来 服务 客户 端 : 


from socket import AF_INET, SOCK_STREAM, socket 
from concurrent.futures import ThreadPoolExecutor 


























def echo_client (sock, client_addr): 


Handle a client connection 


print ('Got connection from', client_addr) 








while True: 
msg = sock.recv (65536) 
if not msg: 
break 
sock. sendall (msg) 
print ('Client closed connection') 
sock.close() 


def echo_server (addr) : 
poo ThreadPoolExecutor (128) 
sock = socket (AF_INET, SOCK_STREAM) 
sock. bind (addr) 
sock. listen (5) 


I 





while True: 
client_sock, client_addr = sock.accept () 
pool.submit (echo_client, client_sock, client_addr) 


echo_server(('',15000) ) 


如 果 想 手动 创建 自己 的 线程 池 ， 使 用 Queue 来 实现 通常 是 足够 简单 的 。 下 面 的 例子 对 
上 述 代码 做 了 修改 ,手动 实现 了 线程 池 : 


from socket import socket, AF_INET, SOCK_STREAM 
from threading import Thread 
from queue import Queue 


def echo_client (q): 


meer 


Handle a client connection 
tri 
sock, client_addr = q.get () 
print ('Got connection from', client_addr) 
while True: 

msg = sock.recv (65536) 

if not msg: 

break 

sock.sendall (msg) 
print ('Client closed connection') 
sock.close() 


def echo_server(addr, nworkers): 
# Launch the client workers 
q = Queue () 
for n in range (nworkers) : 
t = Thread(target=echo_client, args=(q,)) 
t.daemon = True 
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t.start () 


# Run the server 
sock = socket (AF_INET, SOCK_STREAM) 
sock. bind (addr) 
sock. listen(5) 
while True: 
client_sock, client_addr = sock.accept () 
q.put ((client_sock, client_addr) ) 


echo_server(('',15000), 128) 


应 该 使 用 ThreadPoolExecutor 而 不 是 手动 实现 线程 池 。 这 么 做 的 优势 在 于 使 得 任务 的 提 
交 者 能 够 更 容易 从 调用 函数 中 取得 结果 。 例 如 ， 可 以 像 这 样 编写 代码 : 


from concurrent.futures import ThreadPoolExecutor 

















import urllib.request 


def fetch_url (url): 
u = urllib.request.urlopen (url) 
data = u.read() 
return data 


pool = ThreadPoolExecutor (10) 

# Submit work to the pool 

a = pool.submit (fetch_url, 'http://www.python.org') 
b = pool.submit (fetch_url, ‘http://www.pypy.org') 


# Get the results back 
x = a.result () 
y = b.result () 


示例 中 的 结果 对 象 ( 即 ，a 和 b ) 负责 处 理 所 有 需要 完成 的 阻塞 和 同步 任务 ， 从 工作 者 
线程 中 取 回 数据 。 特 别 是 ，axresultO0 操 作 会 阻塞 ， 直 到 对 应 的 函数 已 经 由 线程 池 执行 完 
毕 并 返回 了 结果 为 止 。 


12.7.3 ”讨论 
一 般 来 说 ， 应 该 避免 编写 那 种 允许 线程 数量 无 限 增长 的 程序 。 比 如 ， 看 看 下 面 这 个 服 
务 器 实现 ; 


from threading import Thread 
from socket import socket, AF_INET, SOCK_STREAM 





























def echo_client (sock, client_addr): 


ver 


Handle a client connection 





并 发 519 





meer 


print ('Got connection from', client_addr) 
while True: 

msg = sock.recv (65536) 

if not msg: 

break 

sock.sendall (msg) 
print ('Client closed connection') 
sock.close() 


echo_server (addr, nworkers): 

# Run the server 

sock = socket (AF_INET, SOCK_STREAM) 
sock. bind (addr) 

sock. listen (5) 

while True: 


client_sock, client_addr = sock.accept () 


t = Thread(target=echo_client, args=(client_sock, client_addr) ) 


t.daemon = True 
t.start () 


echo_server(('',15000) ) 


尽管 可 以 工作 ， 但 是 无 法 阻止 恶 ; 
上 创建 了 大 量 的 线程 ， 
之 处 )。 





通过 使 用 预先 初始 化 好 的 线程 池 ， 








个 上 限 值 。 


我 们 可 能 会 担心 创建 大 量 




















线程 的 线程 池 是 不 会 有 什么 问题 的 。 此 外 , 7 
的 代码 产生 性 能 ELE IRERE ABRIO, PRT DROP OS ET 


一 时 间 被 唤醒 开始 使 用 CPU 的 话 那 就 是 另 一 回 事 了 
的 情况 下 更 是 如 此 。 一 般 来 说 ， 
创建 大 
果 创 建 了 两 千 个 线程 ， 





线程 所 产生 的 影响 。 Be 


FA RRA tt A HER TE IR BO, MT BUR a 
耗 尽 了 系统 资源 而 崩 演 ( 因而 进一步 说 明了 使 用 线程 的 “ 绰 恶 ” 
就 可 以 小 心地 为 所 能 支持 的 并 发 总 数 设 定 一 








， 在 现代 的 系统 上 创建 拥有 几 千 个 
一 千 个 线程 等 待 工作 并 不 会 对 其 他 部 分 





















































Lh 














尤其 在 有 全 局 解释 器 锁 ( GIL ) 


线程 池 只 适用 于 处 理 IO 密集 型 的 任务 。 


型 的 线程 池 需 要 考虑 的 一 个 方面 就 是 对 内 存 的 使 用 。 比 如 说 ,在 OS X 上 如 
系统 显示 Python 进程 占用 了 超过 9 GB 的 虚拟 内 存 。 但 是 ， 
S 上 是 有 一 些 误导 的 。 当 创建 一 个 线程 时 ， 操 作 系统 会 











占用 一 段 虚 拟 内 存 来 保 


存 线程 的 执行 栈 ( 通常 有 8 MB ) 这 段 内存 只 有 一 小 部 分 会 实际 映射 到 物理 内 存 上 
因此 ,如 果 看 的 更 仔细 一 些 , 就 会 发 现 Python 进程 占用 的 物理 内 存 远 比 虚 拟 内 存 要 


小 (例如 ,创建 两 千 个 线程 只 使 用 了 70 MB 物理 内 存 ， 
虚拟 内 存 的 大 小 





” 即 所 谓 的 惊 群 现象 。 一 一 译 者 注 


























9 GB )。 如 果 需 要 考虑 





不 是 


， 可 以 使 用 threading.stack_size0 〇 函数 来 将 栈 的 大 小 调 低 。 例 如 : 
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import threading 
threading.stack_size (65536 


如 果 增 加 这 个 调用 ， 然 后 重复 试验 创建 两 千 个 线程 ， 就 会 发 现 Python 进程 现在 只 使 
用 了 大 约 210 MB 虚拟 内 存 ， 但 使 用 的 物理 内 存 总 量 保持 不 变 。 注 意 ， 线 程 栈 的 大 小 
必须 至 少 有 32768 字 节 ， 通 常会 限制 该 值 为 系统 内 存 页 面 大 小 (40968192 等 ) 的 整 
数 倍 。 








12.8 ”实现 简单 的 并 行 编程 


12.8.1 问题 


我 们 有 一 个 执行 了 大 量 CPU 密集 型 工作 的 程序 ,现在 想 让 它 利 用 多 个 CPU 的 优势 运行 
得 更 快 些 。 


12.8.2 ”解决 方案 

concurrent.futures 库 中 提供 了 一 个 ProcessPoolExecutor 2, 可 用 来 在 单独 运行 的 Python 
解释 器 实 例 中 执行 计算 密集 型 的 函数 。 但 是 为 了 使 用 这 个 功能 ， 首 先 得 有 一 些 计 算 密 
集 型 的 任务 才 行 。 让 我 们 以 一 个 简单 但 有 实际 意义 的 例子 来 说 明 。 


假设 有 一 个 目录 ， 里 面 全 是 gzip 压缩 格式 的 Apache Web 服务 需 的 日 志文 件 : 


logs/ 
20120701.log.gz 
20120702.log.gz 
20120703.1log.gz 
20120704.log.gz 
20120705.log.gz 
20120706.log.gz 



































进一步 假设 每 个 日 志文 件 中 包含 有 如 下 这 样 的 文本 行 : 





124.115.6.12 - - [10/Jul/2012:00:18:50 -0500] "GET /robots.txt ..." 200 71 
210.212.209.67 - - [10/dul1/2012:00:18:51 -0500] "GET /ply/ ..." 200 11875 
210.212.209.67 - - [10/Jul/2012:00:18:51 -0500] "GET /favicon.ico ..." 404 369 
61.135.216.105 - - [10/Jul/2012:00:20:04 -0500] "GET /blog/atom.xml ..." 304 - 








下 面 是 一 个 简单 的 脚本 ， 它 读 取 数据 并 标识 出 所 有 访问 过 robots.txt 文件 的 主机 : 
# findrobots.py 


import gzip 








import io 
import glob 


def find_robots (filename): 


meer 


Find all of the hosts that access robots.txt in a single log file 


meer 


robots = set() 
with gzip.open(filename) as f: 
for line in io.TextlOWrapper (f, encoding='ascii'): 
fields = line.split () 
if fields[6] == '/robots.txt': 
robots.add(fields[0]) 
return robots 


def find_all_robots (logdir) : 


meer 


Find all hosts across and entire sequence of files 

tri 

files = glob.glob(logdirt'/*.log.gz') 

all_robots = set () 

for robots in map(find_robots, files): 
all_robots.update (robots) 

return all_robots 


if _name_ == '_main_': 





robots = find_all_robots('logs') 
for ipaddr in robots: 
print (ipaddr) 


上 面 的 程序 以 常用 的 map-reduce 风 格 "来 编写 .函数 find_robots0 被 映射 到 一 系列 的 文件 名 上 ， 
将 所 有 得 到 的 结果 合并 成 一 个 单独 的 结果 ( 即 find_al_robots0 函 数 中 设置 的 all_ robots )。 








现在 假设 想 修 改 这 个 程序 以 利用 多 个 CPU 核心 。 这 是 很 容易 实现 的 








只 需 把 map() 


替换 成 一 个 类 似 的 操作 , 并 让 它 在 concurrent.futures 库 中 的 进程 池 中 执行 即 可 。 下面 是 


稍微 修改 过 的 代码 : 


# findrobots.py 


import gzip 

import io 

import glob 

from concurrent import futures 








” 即 函 数 式 编程 中 的 map ( 映射) 和 reduce ( 化 简 ) — KN 


mT 
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def find_robots (filename): 


ver 


Find all of the hosts that access robots.txt in a single log file 
mee 
robots = set () 
with gzip.open(filename) as f: 
for line in io.TextIOWrapper (f,encoding='ascii'): 
fields = line.split() 
if fields[6] == '/robots.txt!': 
robots.add(fields[0]) 

return robots 


def find_all_robots(logdir): 


ver 


Find all hosts across and entire sequence of files 
mee 
files = glob.glob(logdirt'/*.log.gz') 
all_robots = set() 
with futures.ProcessPoolExecutor() as pool: 
for robots in pool.map(find_robots, files): 
all_robots.update (robots) 
return all_robots 


if _name_ == '_main_': 





robots = find_all_robots('logs') 
for ipaddr in robots: 
print (ipaddr) 





经 过 这 次 修改 , 现在 这 个 脚本 在 我 们 的 四 核 机 器 上 运行 时 要 比 之 前 的 版 本 快 3.5 倍 , 得 








到 的 结果 完全 相同 。 实 际 的 性 能 会 根据 机 右上 的 CPU 个 数 而 有 所 不 同 。 


12.8.3 讨论 
ProcessPoolExecutor 的 典型 用 法 是 这 样 的 : 

















from concurrent.futures import ProcessPoolExecutor 
with ProcessPoolExecutor() as pool: 


do work in parallel using pool 





在 底层 ，ProcessPoolExecutor 创建 了 N 个 独立 运行 的 Python 解释 器 ， 这 里 的 NN 就 是 在 


系统 上 检测 到 的 可 用 的 CPU 个 数 。 可 以 修改 创建 的 Python 进程 个 数 ， 


只 要 给 


ProcessPoolExecutor(N) 提 供 一 个 可 选 的 参数 即 可 。 进 程 池 会 一 直 运 行 ， 直 到 with 语句 
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块 中 的 最 后 一 条 语句 执行 完毕 为 止 ， 此 时 进程 池 就 会 关闭 。 但 是 ， 程 序 会 一 直 等 待 所 
有 已 经 提交 的 任务 都 处 理 完毕 为 止 。 

提交 到 进程 池 中 的 任务 必须 定义 成 函数 的 形式 。 有 两 种 方法 可 以 提交 任务 。 如 果 想 并 
行 处 理 一 个 列表 推导 式 或 者 map0 操 作 ， 可 以 使 用 pool.map0: 


# A function that performs a lot of work 
def work (x): 





return result 


# Nonparallel code 
results = map(work, data) 


# Parallel implementation 
with ProcessPoolExecutor() as pool: 
results = pool.map(work, data) 

















还 有 一 种 方式 就 是 可 以 通过 pool.submit0) 方 法 来 手动 提交 一 个 单独 的 任务 : 


# Some function 
def work (X) : 


return result 
with ProcessPoolExecutor() as pool: 


# Example of submitting work to the pool 
future_result = pool.submit (work, arg) 


# Obtaining the result (blocks until done) 


r = future_result.result () 

















如 果 手 动 提 交 任 务 ， 得 到 的 结果 就 是 一 个 Future 实例 。 要 获取 到 实际 的 结果 还 需要 
调用 它 的 result0 方 法 。 这么 做 会 阻塞 进程 ， 直 到 完成 了 计算 并 将 结果 返回 给 进程 池 
为 止 。 
与 其 让 进程 阻塞 ， 也 可 以 提供 一 个 回调 函数 ， 让 它 在 任务 完成 时 得 到 触发 执行 。 示 例 
如 下 : 


def when_done(r): 
print ('Got:', r.result()) 














with ProcessPoolExecutor() as pool: 
future_result = pool.submit (work, arg) 
future_result .add_done_callback (when_done) 
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用 户 提供 的 回调 函数 需要 接受 一 个 Future 实例 ， 必 须 用 它 才 能 获取 到 实际 的 结果 ( 即 ， 

调用 它 的 result0 方 法 )。 

尽管 进程 池 使 用 起 来 很 简单 ， 但 是 在 设计 规模 更 大 的 程序 时 有 几 个 重要 的 因素 需要 考 

虑 。 我 们 在 这 里 说 明 一 下 ， 各 因素 间 不 分 先后 顺序 。 

。 ”这 种 并 行 化 处 理 的 技术 只 适用 于 可 以 将 问题 分 解 成 各 个 独立 部 分 的 情况 。 

© 任务 必须 定义 成 普通 的 函数 来 提交 。 实 例 方 法 、 闭 包 或 者 其 他 类 型 的 可 调用 对 象 

都 是 不 支持 并 行 处 理 的 。 

。 ”了 国 数 的 参数 和 返回 值 必须 可 兼容 于 pickle 编码 。 任 务 的 执行 是 在 单独 的 解释 器 进 

程 中 完成 的 ， 这 中 间 需 要 用 到 进程 间 通 信 。 因 此 ， 在 不 同 的 解释 器 间 交 换 数据 必 
须要 进行 序列 化 处 理 。 

。 ”提交 的 工作 函数 不 应 该 维护 持久 的 状态 或 者 带 有 副作用 。 除 了 简单 的 日 志 功 能 外 ， 
一 旦 子 进程 启动 ， 将 无 法 控制 它 的 行为 。 因 此 ， 为 了 让 思路 保持 清晰 ， 最 好 让 每 件 

事情 都 保持 简单 ， 让 任务 在 不 会 修改 执行 环境 的 纯 函 数 (pure-function ) 中 执行 。 

。 ”进程 池 是 通过 调用 UNIX 上 的 forkO 系 统 调用 来 创建 的 。 这 么 做 会 克隆 出 一 个 
Python 解释 器 ， 在 fork0 时 会 包含 所 有 的 程序 状态 。 在 Windows 上 ， 这 么 做 会 加 
载 一 个 独立 的 解释 器 拷贝 ,但 并 不 包含 状态 ,克隆 出 来 的 进程 在 首次 调用 pool.map() 
或 者 pool.submit() 方 法 之 前 不 会 实际 运行 。 

。 ” 当 将 进程 池 和 多 线程 技术 结合 在 一 起 时 需要 格外 小 心 。 特 别 是 ， 很 可 能 我 们 应 该 
在 创建 任何 线程 之 前 优先 创建 并 加 载 进程 池 (例如 ， 当 程序 启动 时 在 主线 程 中 创 
建 进程 池 )。 














































































































12.9 如 何 规避 GIL 带 来 的 限制 


12.9.1 ”问题 
我 们 已 经 听 说 过 全 局 解释 器 锁 ( GIL )， 担 心 它 会 影响 到 多 线程 程序 的 性 能 。 


12.9.2 解决 方案 

尽管 Python 完全 支持 多 线程 编程 ， 但 是 在 解释 器 的 C 语言 实现 中 ， 有 一 部 分 并 不 是 线 
程 安全 的 ， 因 此 不 能 完全 支持 并 发 执行 。 事 实 上 ， 解 释 器 被 一 个 称 之 为 全 局 解释 器 锁 
(GIL) 的 东西 保护 着 ， 在 任意 时 刻 只 允许 一 个 Python 线程 投入 执行 。GIL 带 来 的 最 明 
显 的 影响 就 是 多 线程 的 Python 程序 无 法 充分 利用 多 个 CPU 核心 带 来 的 优势 (BD, 一 个 
采用 多 线程 技术 的 计算 密集 型 应 用 只 能 在 一 个 CPU 上 运行 )。 


在 讨论 规避 GIL 的 常用 方案 之 前 ， 需 要 重点 强调 的 是 ，GIL 只 会 对 CPU 密集 型 的 

































































程序 产生 影响 ( 即 , 主要 完成 计算 任务 的 程序 )。 如 果 我 们 的 程序 主要 是 在 做 IO 操 
作 ， 比 如 处 理 网 络 连 接 ， 那 么 选择 多 线程 技术 常常 是 一 个 明智 的 选择 。 因 为 它们 大 
部 分 时 间 都 花 在 等 待 对 方 发 起 连接 上 了 。 实 际 上 可 以 创建 数 以 千 计 的 Python 线程 ， 
一 点 问题 都 没有 。 在 现代 的 操作 系统 上 运行 这 么 多 线程 是 不 会 有 问题 的 ， 因 此 这 不 
是 应 该 担心 的 地 方 。 


对 于 CPU 密集 型 的 程序 ， 我 们 需要 对 问题 的 本 质 做 些 研 究 。 例 如 ， 仔 细 选 择 底层 用 到 
的 算法 ， 这 可 能 会 比 尝试 将 一 个 没有 优化 过 的 算法 用 多 线程 来 并 行 处 理 所 带 来 的 性 能 
提升 要 高 得 多 。 同 样 地 ， 由 于 Python 是 解释 型 语言 ， 往 往 只 要 简单 地 将 性 能 关键 的 代 
码 转移 到 用 C 语言 扩展 的 模块 中 就 可 能 得 到 极 大 的 速度 提升 。 类 似 NumPy 这 样 的 扩展 
模块 对 于 加 速 涉及 数组 数据 的 特定 计算 也 是 非常 高 效 的 。 最 后 但 同样 重要 的 是 ， 还 可 
以 尝试 其 他 的 解释 器 实现 ， 比 如 说 使 用 了 JIT 编译 优化 技术 的 PyPy ( 尽管 在 写作 本 书 
时 PyPy 还 没有 支持 Python 3 )。 

同样 值得 指出 的 是 ， 使 用 多 线程 技术 并 不 只 是 为 了 获得 性 能 的 提升 。 一 个 CPU 密集 型 
的 程序 可 能 会 用 多 线程 来 管理 图 形 用 户 界 面 、 网 络 连接 或 者 其 他 类 型 的 服务 。 在 这 种 
情况 下 GIL 实际 上 会 带 来 更 多 的 问题 。 因 为 如 果 某 部 分 代码 持 有 GIL 锁 的 时 间 过 长 ， 
那 就 会 导致 其 他 非 CPU 密集 型 的 线程 都 阻塞 住 ， 这 实在 令 人 讨厌 。 实 际 上 ， 一 个 写 的 
很 糟糕 的 C 语言 扩展 模块 会 让 这 个 问题 变 得 更 加 严重 ， 尽 管 代 码 中 用 C 实现 的 部 分 会 
比 之 前 要 运行 得 更 快 。 

说 了 这 么 多 ， 要 规避 GIL 的 限制 主要 有 两 种 常用 的 策略 。 第 一 ， 如 果 完 全 使 用 Python 
来 编程 , 可 以 使 用 multiprocessing 模块 来 创建 进程 池 , 把 它 当 做 协 处 理 器 来 使 用 。 例如 ， 
假设 线程 代码 是 这 样 的 : 


# Performs a large calculation (CPU bound) 



























































































































































def some work (args): 
return result 


# A thread that calls the above function 
def some_thread(): 
while True: 





”要 想 理解 这 一 段 内 容 ， 需 要 对 Python 解释 器 的 行为 有 一 些 了 解 。 对 于 VO 密集 型 的 线程 ， 每 当 阻 守 
等 待 VO 操作 时 解释 器 都 会 释放 GIL。 对 于 从 来 不 执行 任何 VO 操作 的 CPU 密集 型 线程 ，Python f 
释 器 会 在 执行 了 一 定数 量 的 字 节 码 后 释放 GIL， 以 便 其 他 线程 得 到 执行 的 机 会 。 但 是 C 语言 扩展 模 
块 不 同 ， 调 用 CRAN GIL 会 被 锁定 ， 直 到 它 返回 为 止 。 由 于 C 代码 的 执行 是 不 受 解释 器 控制 的 ， 
这 一 期 间 不 会 执行 任何 Python 字 节 码 ， 因 此 解释 器 就 没 法 释放 GIL 了 。 如 果 编 写 C 语言 扩展 时 不 
小 心 ， 比 方 说 调用 了 会 阻塞 的 C 函数 、 执 行 耗 时 很 长 的 操作 等 ,那么 必须 等 到 C 函数 返回 时 才 会 释 
放 GIL， 这 时 其 他 的 线程 就 便 死 了 。 这 就 是 为 什么 作者 说 如 果 C 扩展 模块 实现 的 很 糟糕 的 话 ， 会 让 
问题 变 得 更 严重 。 一 一 译 者 注 
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r = some_work (args) 


下 面 的 示例 告诉 我 们 如 何 将 代码 修改 为 使 用 进程 池 的 方式 : 


# Processing pool (see below for initiazation) 


pool = None 


# Performs a large calculation (CPU bound) 
def some_work (args): 


return result 
# A thread that calls the above function 
def some_thread(): 
while True: 
r = pool.apply(some_work, (args) ) 


# Initiaze the pool 


if _name_ == '_main_': 





import multiprocessing 


pool = multiprocessing.Pool () 


这 个 使 用 进程 池 的 例子 通过 一 个 巧妙 的 办 法 避 开 了 GIL 的 限制 。 每 当 有 线程 要 执行 
CPU 密集 型 的 任务 时 ， 它 就 把 任务 提交 到 池 中 ， 然 后 进程 池 将 任务 转交 给 运行 在 另 一 
个 进程 中 的 Python 解释 器 。 当 线程 等 待 结果 的 时 候 就 会 释放 GIL。 此 外 ， 由 于 计算 是 
在 另 一 个 单独 的 解释 器 中 进行 的 ， 这 就 不 再 受到 GIL 的 限制 了 。 在 多 核 系 统 上 ， 将 会 
发 现 采 用 这 种 技术 能 轻易 地 利用 到 所 有 的 CPU 核心 。 


第 二 种 方式 是 把 重点 放 在 C 语言 扩展 编程 上 。 主 要 思想 就 是 将 计算 密集 型 的 任务 转移 
到 C 语言 中 ,使 其 独立 于 Python， 在 C 代码 中 释放 GIL。 这 是 通过 在 C 代码 中 插入 特 
殊 的 宏 来 实现 的 : 


#include "Python.h" 
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PyObject *pyfunc(PyObject *self, PyObject *args) { 


Py_BEGIN_ALLOW_THREADS 
// Threaded C code 


Py_END_ALLOW_THREADS 











如 果 使 用 其 他 的 工具 来 访问 C 代码 ， 比 如 ctypes 库 或 者 Cython ， 那 么 可 能 不 需要 做 任 
何 处 理 。 比 方 说 ，ctypes 默认 会 在 调用 C 代码 时 自动 释放 GIL. 


12.9.3 讨论 

有 许多 程序 员 每 当面 对 多 线程 程序 性 能 方面 的 问题 时 ， 总 是 抱怨 GIL 是 所 有 问题 的 根 
源 。 但 是 ， 这 么 做 只 是 一 种 短视 和 幼稚 的 行为 。 举 个 现实 中 的 例子 吧 ， 在 多 线程 网 络 
程序 中 出 现 神秘 的 “ 僵 死 ”现象 很 可 能 是 由 于 和 GIL 风 马 牛 不 相 及 的 原因 所 造成 的 ( 例 
如 ，DNS 查询 失败 )。 底 线 就 是 你 需要 认真 研究 自己 的 代码 ， 判 断 GIL 是 否 才 是 问题 的 
原因 。 再 次 申明 ，CPU 密集 型 的 处 理 才 需要 考虑 GIL, VO 密集 型 的 处 理 则 不 必 。 

如 果 打 算 使 用 进程 池 来 规避 GIL， 这 需要 涉及 同 男 一 个 Python 解释 器 之 间 进 行 数据 序 
列 化 和 通信 的 处 理 。 为 了 让 这 种 方法 奏效 , 待 执行 的 操作 需要 包含 在 以 def 语句 定义 的 
Python 函数 中 ( 即 , 在 这 里 lambda、 闭 包 、 可 调用 实例 都 是 不 可 以 的 )， 而 且 函 数 参数 
和 返回 值 必须 兼容 于 pickle 编码 。 此 外 ， 要 完成 的 工作 规模 必须 足够 大 ， 这 样 可 以 弥 
补 额外 产生 的 通信 开销 。 
将 多 线程 和 进程 池 混在 一 起 使 用 绝对 是 个 让 人 头痛 的 好 办 法 。 如 果 打 算 将 这 些 功能 结合 
在 一 起 使 用 , 通常 最 好 在 创建 任何 线程 之 前 将 进程 池 作 为 单 例 ( singleton ) 在 程序 启动 的 
时 候 创建 。 之 后 ， 线 程 就 可 以 使 用 相同 的 进程 池 来 处 理 所 有 那些 计算 密集 型 的 工作 。 


对 于 C 语言 扩展 模块 , 最 重要 的 功能 就 是 保持 与 Python 解释 器 进程 的 隔离 。 也 就 是 说 ， 
如 果 打 算 将 任务 从 Python 中 转移 到 C 来 处 理 ， 需 要 确保 C 代码 可 以 独立 于 Python ft 
行 。 这 意味 着 不 使 用 Python 的 数据 结构 ， 也 不 调用 Python 的 C 语言 API。 另 一 个 需要 
考虑 的 就 是 要 确保 编写 C 语言 扩展 模块 能 够 完成 足够 多 的 任务 ， 这 样 才 值得 这 么 做 。 
也 就 是 说 ， 这 个 扩展 模块 最 好 可 以 执行 几 百 万 次 的 计算 ， 而 不 仅仅 只 是 完成 几 个 小 规 
模 的 计算 。 

不 用 说 ， 这 些 规避 GIL 限制 的 解决 方案 并 非 对 所 有 问题 都 适用 。 例 如 ， 某 些 特 定 类 型 
的 应 用 如 果 分 解 到 多 个 进程 中 处 理 , 或 者 是 将 部 分 代码 用 C 来 实现 , 效果 都 不 会 很 好 。 
对 于 这 些 类 型 的 应 用 ， 需 要 找到 自己 的 解决 方案 ( 例如， 多 个 进程 访问 共享 的 内 存 区 
域 、 让 多 个 解释 器 运行 在 同一 个 进程 中 ， 等 等 )。 作 为 备 选 方案 ， 我 们 还 可 以 选择 其 他 
的 解释 器 实现 ， 比 如 PyPy。 

ARE C 语言 扩展 中 释放 GIL 的 附加 内 容 ， 可 参见 15.7 节 和 15.10 节 。 















































































































































































































































12.10 ”定义 一 个 Actor 任务 


12.10.1 问题 
我 们 想 要 定义 行为 上 类 似 于 actor 的 任务 ， 即 采用 所 谓 的 actor 模式 来 编程 。 
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12.10.2 解决 方案 

actor 模式 是 最 古老 也 是 最 简单 的 用 来 解决 并 发 和 分 布 式 计算 问题 的 方法 之 一 ,实际 上 ， 
actor 模式 所 暗含 的 简单 性 正 是 它 的 吸引 力 所 在 。 总 的 来 说 ，actor 就 是 一 个 并 发 执行 的 
任务 ， 它 只 是 简单 地 对 发 送 给 它 的 消息 进行 处 理 。 作 为 对 这 些 消 息 的 响应 ，actor 会 决 
定 是 否 要 对 其 他 的 actor 发 送 进一步 的 消息 。actor 任务 之 间 的 通信 是 单 向 且 异 步 的 。 
此 ， 消 息 的 发 送 者 并 不 知道 消息 何 时 才 会 实际 传递 ， 当 消息 已 经 处 理 完毕 时 也 不 会 接 
收 到 啊 应 或 者 确认 。 

把 线程 和 队列 结合 起 来 使 用 很 容易 定义 出 actor。 示 例如 下 : 


from queue import Queue 

































































from threading import Thread, Event 


# Sentinel used for shutdown 
class ActorExit (Exception) : 
pass 


class Actor: 
def _ init__(self): 


self._mailbox = Queue () 


def send(self, msg): 


oer 


Send a message to the actor 


ver 


self._mailbox.put (msg) 


def recv(self): 


per 


Receive an incoming message 
peer 
msg = self._mailbox.get () 
if msg is ActorExit: 

raise ActorExit () 


return msg 


def close(self): 


mer 


Close the actor, thus shutting it down 


ore 


self.send(ActorExit) 


def start (self): 


ver 





并 发 529 





Start concurrent execution 

mee 

self._terminated = Event () 

t = Thread(target=self._bootstrap) 
t.daemon = True 

t.start () 


def _bootstrap (self): 
try: 
self.run() 
except ActorExit: 
pass 
finally: 


self._terminated.set () 


def join(self): 
self._terminated.wait () 


def run(self): 


meer 


Run method to be implemented by the user 
pre 
while True: 


msg = self.recv() 


# Sample ActorTask 
class PrintActor (Actor) : 
def run(self): 
while True: 
msg = self.recv() 
print ('Got:', msg) 


# Sample use 

p = PrintActor() 
p.start () 
p.send('Hello') 
p.send('World') 
p.close() 

P 


.join () 


在 这 个 示例 中 ， 我 们 使 用 actor 实例 的 send0 方 法 来 发 送 消息 。 在 底层 ， 这 会 将 消息 放 
和 人 到 队列 上 , 内 部 运行 的 线程 会 从 队列 中 取出 收 到 的 消息 处 理 。close0 方 法 通过 在 队列 
中 放置 一 个 特殊 的 终止 值 (ActorExit ) 来 关闭 actor。 用 户 可 以 通过 继承 Actor 类 来 定 
义 新 的 actor， 并 重新 定义 run0 方 法 来 实现 自 定 义 的 处 理 。 用 户 自 定义 的 代码 可 通过 
ActorExit 异常 来 捕获 终止 请 求 ， 如 果 合 适 的 话 可 以 处 理 这 个 异常 ( ActorExit 异常 是 在 

















530 第 12 章 


recv() 方 法 中 抛 出 并 传播 的 )。 
如 果 将 并 发 和 异步 消息 传递 的 需求 去 掉 ， 那 么 完全 可 以 用 生成 器 来 定义 一 个 最 简化 的 
actor 对 象 。 示 例如 下 : 


def print_actor(): 





while True: 
try: 
msg = yield # Get a message 
print ('Got:', msg) 
except GeneratorExit: 
print ('Actor terminating') 


# Sample use 

p = print_actor () 

next (p) # Advance to the yield (ready to receive) 
p.send('Hello') 

p.send('World') 

p.close() 


12.10.3 ”讨论 

actor 模式 之 所 以 吸引 人 ,部 分 原因 是 由 于 它 的 简单 性 。 在 实践 中 只 有 一 个 核心 的 操作 ， 
那 就 是 send0。 此 外 , 在 基于 actor 模式 的 系统 中 ,“ 消 息 ” 的 概念 可 以 扩展 到 许多 不 同 
的 方向 。 比 方 说 ， 可 以 以 元 组 的 形式 传递 带 标签 的 消息 ， 让 actor 执行 不 同 的 操作 : 

















class TaggedActor (Actor) : 
def run(self): 
while True: 
tag, *payload = self.recv() 
getattr (self, 'do_'ttag) (*payload) 


# Methods correponding to different message tags 
def do_A(self, x): 
print ('Running A', x) 


def do_B(self, x, y): 
print ('Running B', x, y) 


# Example 

a = TaggedActor () 

a.start () 

a.send(('A', 1)) # Invokes do_A(1) 
a.send(('B', 2, 3)) # Invokes do_B(2, 3) 
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再 看 另 一 个 例子 。 这 里 有 一 个 actor 的 变种 ， 人 允许 在 工作 者 线程 中 执行 任意 的 函数 ， 并 
通过 特殊 的 Result MHI ARR LE: 


from threading import Event 




















class Result: 
def _ init__(self): 
self._evt = Event () 
self._result = None 


def set_result (self, value): 
self._result = value 


self._evt.set () 


def result (self): 








self._evt.wait () 
return self._result 


class Worker (Actor) : 
def submit(self, func, *args, **kwargs): 

r = Result () 
self.send((func, args, kwargs, r)) 








return r 


def run(self): 

while True: 
func, args, kwargs, r = self.recv() 
r.set_result (func(*args, **kwargs) ) 


# Example use 
worker = Worker () 
worker.start () 
r = worker.submit (pow, 2, 3) 
print (r. result () ) 


最 后 但 同样 重要 的 是 , 给 任务 “发 送 ” 一 条 消息 这 个 概念 是 可 以 扩展 到 涉及 多 进程 其 
至 是 大 型 的 分 布 式 系统 中 的 。 例 如 ， 可 以 把 actor 对 象 的 send() 方 法 实现 为 在 socket 
连接 上 传输 数据 ， 或 者 通过 某 种 消息 传递 的 基础 架构 ( 比如 AMQP, ZMQ 等 ) 来 完 
成 传递 。 


12.11 实现 发 布 者 /订阅 者 消息 模式 


12.11.1 问题 
我 们 要 解决 一 个 基于 多 线程 间 通 信 的 问题 ,希望 实现 发 布 者 /订阅 者 的 消息 模式 。 
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12.112 ”解决 方案 

要 实现 发 布 者 /订阅 者 消息 模式 ， 一 般 来 说 需要 引入 一 个 单独 的 “交换 ”或 者 “网 关 ” 
这 样 的 对 象 ， 作 为 所 有 消息 的 中 介 。 也 就 是 说 ， 不 是 直接 将 消息 从 一 个 任务 发 往 另 一 
个 任务 ， 而 是 将 消息 发 往 交换 中 介 ， 由 中 介 将 消息 转发 给 一 个 或 多 个 相关 联 的 任务 。 
下 面 给 出 了 一 个 非常 简单 的 消息 交换 的 实现 : 


from collections import defaultdict 























class Exchange: 
def _ init__(self): 


self._subscribers = set () 


def attach(self, task): 


self._subscribers.add(task) 


def detach(self, task): 


self._subscribers. remove (task) 





def send(self, msg): 
for subscriber in self._subscribers: 


subscriber .send (msg) 


# Dictionary of all created exchanges 
_exchanges = defaultdict (Exchange) 


# Return the Exchange instance associated with a given name 
def get_exchange (name) : 
return _exchanges [name] 


交换 中 介 其 实 就 是 一 个 对 象 ， 它 保存 了 活跃 的 订阅 者 集合 ， 并 提供 关联 、 取 消 关 联 以 
及 发 送 消息 的 方法 。 每 个 交换 中 介 都 由 一 个 名 称 来 标识 ，getexchangeO 函 数 简单 地 返 
回 同 给 定 的 名 称 相关 联 的 那个 Exchange 对 象 。 


下 面 是 一 个 简单 的 例子 ， 展 示 了 如 何 使 用 交换 中 介 


# Example of a task. Any object with a send() method 




















class Task: 
def send(self, msg): 


task_a = Task() 
task_b = Task() 


# Example of getting an exchange 
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exc = get_exchange('name') 


# Examples of subscribing tasks to it 
exc.attach (task_a) 
exc.attach (task_b) 


# Example of sending messages 
exc. send('msgl') 
exc. send('msg2') 


# Example of unsubscribing 
exc. detach (task_a) 
exc. detach (task_b) 


尽管 关于 这 个 主题 还 有 许多 不 同 的 变种 ， 但 总 体 思路 都 是 一 样 的 。 消 息 会 先 传递 到 一 
个 中 介 ， 再 由 中 介 将 消息 传递 给 相关 联 的 订阅 者 。 


12.11.3 ”讨论 
任务 或 者 线程 之 间 互 相 发 送 消息 (通常 以 队列 来 实现 )， 这 个 概念 很 流行 也 很 容易 
实现 。 但 是 ， 如 果 使 用 订阅 者 /发 布 者 模型 来 取代 传统 的 做 法 ， 带 来 的 好 处 常 第 被 人 
们 忽视 。 
首先 ， 使 用 交换 中 介 可 以 简化 很 多 设 定 线程 通信 的 工作 。 与 其 通过 多 个 模块 将 线程 连 
接 在 一 起 ， 现 在 只 需要 关心 将 线程 连接 到 一 个 已 知 的 交换 中 介 上 就 行 了 。 从 某 种 意义 
上 说 这 和 logging 库 的 工作 方式 很 相似 。 在 实践 中 ,这么 做 可 以 使 解 耦 程序 中 的 多 个 任 
务 变 得 更 加 容易 。 
其 次 ， 交 换 中 介 具 有 将 消息 广播 发 送 给 多 个 订阅 者 的 能 力 ， 这 打开 了 新 通信 模式 的 大 
门 。 比 如 说 ,我 们 可 以 实现 带 有 宛 余 任务 、 广 播 或 者 扇 出 (fan-out ) 的 系统 。 也 可 以 构 
建 调试 以 及 诊断 工具 ， 将 它们 作为 普通 的 订阅 者 关联 到 交换 中 介 上 。 下 面 是 一 个 简单 
的 诊断 类 ， 可 以 显示 发 送 的 消息 : 

class DisplayMessages: 


def _ init__(self): 


self.count = 0 



















































































def send(self, msg): 
self.count += 1 
print ('msg[{}]: {!r}'. format (self.count, msg) ) 


exc = get_exchange('name') 
d = DisplayMessages () 
exc. attach (d) 


最 后 但 同样 重要 的 是 ， 这 种 实现 方式 有 一 个 显著 的 方面 就 是 它 能 和 各 种 类 似 于 任务 的 
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对 象 一 起 工作 。 比 如 , 消息 的 接收 者 可 以 是 actor (12.10 节 中 描述 了 actor 任务 ) 协 程 、 











网 络 连接 ， 甚 至 只 要 实现 了 合适 的 send0 方 法 的 对 象 都 可 以 。 





关于 交换 中 介 ， 一 个 可 能 存在 的 问题 就 是 如 何以 适当 的 方式 对 订阅 者 进行 关联 和 取消 
关联 处 理 。 为 了 能 正确 管理 资源 ， 每 个 已 经 关联 上 的 订阅 者 最 终 都 必须 取消 关联 。 这 








就 导致 出 现 类 似 于 下 面 示例 的 编程 模型 : 


exc = get_exchange('name') 
exc.attach (some_task) 
try: 


finally: 


exc. detach (some_task) 


从 某 种 意义 上 说 ， 这 和 使 用 文件 、 锁 以 及 类 似 的 资源 对 象 很 相似 。 经 验 告诉 我 们 ， 程 

















出 


序 员 常 常会 忘记 最 后 的 detach0。 为 了 简化 这 个 步 又, 或 许 会 考虑 使 用 上 下 文 管理 协议 。 


例如 ， 为 交换 中 介 添 加 一 个 subscribe() 方 法 : 


from contextlib import contextmanager 
from collections import defaultdict 


class Exchange: 
def _ init__(self): 


self._subscribers = set () 


def attach(self, task): 


self._subscribers.add (task) 


def detach(self, task): 


self._subscribers. remove (task) 





@contextmanager 
def subscribe(self, *tasks): 
for task in tasks: 
self.attach (task) 
try: 
yield 
finally: 
for task in tasks: 
self.detach (task) 


def send(self, msg): 


for subscriber in self._subscribers: 


subscriber .send (msg) 


# Dictionary of all created exchanges 
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_exchanges = defaultdict (Exchange) 


# Return the Exchange instance associated with a given name 
def get_exchange (name) : 
return _exchanges [name] 


# Example of using the subscribe() method 
exc = get_exchange('name') 
with exc.subscribe(task_a, task_b): 


exc.send('msgl') 
exc.send('msg2') 


# task_a and task_b detached here 


最 后 应 该 要 提 到 的 是 ， 对 于 交换 中 介 这 个 思想 其 实 还 有 许多 种 可 能 的 扩展 。 例 如 ， 交 
换 中 介 可 以 实现 一 整个 消息 通道 的 集合 , 或 者 对 交换 中 介 的 名 称 施 加 模式 匹配 的 规则 。 
交换 中 介 也 可 以 扩展 到 分 布 式 计算 的 应 用 中 去 (例如 ,将 消息 在 不 同 机 器 上 的 任务 之 
间 进 行路 由 )。 


12.12 ”使 用 生成 器 作为 线程 的 蔡 代 方 案 


12.12.1 问题 
我 们 想 用 生成 器 〈 协 程 ) 作为 系统 线程 的 百代 方案 来 实现 并 发 。 协 程 有 时 也 称 为 用 户 
级 线程 或 绿色 线程 。 


12.12.2 ”解决 方案 

要 利用 生成 器 来 实现 自己 的 并 发 机 制 ， 首 选 需要 对 生成 器 函数 和 yield 语句 的 基本 原理 
有 所 了 解 。 特 别 是 关于 yield 的 基本 行为 ， 即 ， 使 得 生成 器 暂停 执行 。 由 于 可 以 暂停 执 
行 ， 因 此 可 以 编写 一 个 调度 器 将 生成 器 函数 当做 一 种 “任务 ”来 对 待 ， 并 通过 使 用 某 
种 形式 的 任务 切换 来 交替 执行 这 些 任 务 。 

为 了 说 明 这 个 思想 ， 考 虑 下 面 两 个 生成 器 函数 : 


# Two simple generator functions 
def countdown (n): 
while n > 0: 


























































































































print ('T-minus', n) 
yield 
n-=1 

print ('Blastoff!"') 
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def countup(n): 
x = 0 
while x < n: 
print ('Counting up', x) 
yield 
x t= 1 


EE eR CHT EAR ETAT, AA ETA TARAY yield 语句 。 但 是 请 考虑 下 面 





的 代码 ， 我 们 给 出 了 一 个 简单 的 任务 调度 器 实现 : 
from collections import deque 


class TaskScheduler: 
def _ init__(self): 


self._task_queue = deque() 


def new_task(self, task): 


mer 


Admit a newly started task to the scheduler 


rer 


self._task_queue. append (task) 


def run(self): 


oer 


Run until there are no more tasks 
mee 
while self._task_queue: 
task = self._task_queue.popleft () 
try: 
# Run until the next yield statement 
next (task) 
self._task_queue. append (task) 
except StopIteration: 
# Generator is no longer executing 
pass 


# Example use 

sched = TaskScheduler () 
sched. new_task (countdown (10) ) 
sched. new_task (countdown (5) ) 
sched. new_task (countup (15) ) 
sched. run () 


在 这 份 代码 中 ，TaskScheduler 类 以 循环 的 方式 运行 了 一 系列 的 生成 


运行 到 yield 语句 就 暂停 。 例 如 ， 上 面 程序 的 输出 如 下 : 





日 日 


fir 


函数 一 一 每 个 都 
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T-minus 


T-minus 


10 
5 


Counting up 0 


T-minus 


T-minus 


9 
4 


Counting up 1 


T-minus 


T-minus 


8 
3 


Counting up 2 


T-minus 


T-minus 




















在 实践 中 ， 





7 
2 





此 时 如 果 愿 意 的 话 ， 已 经 基本 上 实现 了 一 个 微型 “操作 系统 ”的 核心 。 生 成 器 函数 就 
是 任务 ， 而 yield 语句 就 是 通知 任务 需要 暂停 挂 起 的 信号 。 调 度 器 只 是 简单 地 轮流 执行 
所 有 的 任务 ， 直 到 没有 一 个 任务 还 能 执行 为 止 。 











我 们 很 可 能 不 会 用 生成 器 来 实现 像 示 例 这 么 简单 的 并 发 处 理 。 相 反 ， 当 实 





现 actor 或 者 网 络 服务 器 时 ， 可 能 会 用 生成 器 来 取代 线程 。 
下 面 的 代码 用 生成 器 来 实现 actor， 完 全 没有 用 到 线程 : 





from collections import deque 


class ActorScheduler: 


def 


def 


def 


def 


__init__(self): 
self._actors = { } # Mapping of names to actors 


self._msg_queue = deque () # Message queue 


new_actor(self, name, actor): 


meer 


Admit a newly started actor to the scheduler and give it a name 
pee 
self._msg_queue.append( (actor, None) ) 


self._actors[name] = actor 


send(self, name, msg): 


mee 


Send a message to a named actor 
FEF 

actor = self._actors.get (name) 
if actor: 


self._msg_queue.append((actor,msg) ) 


run(self): 


meer 
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Run as long as there are pending messages. 
rrr 
while self._msg_queue: 
actor, msg = self._msg_queue.popleft () 
try: 
actor .send (msg) 
except StopIteration: 





pass 
# Example use 
if _name_ == '_main_': 
def printer (): 
while True: 
msg = yield 


print ('Got:', msg) 


def counter (sched) : 

while True: 
# Receive the current count 
n = yield 
if n == 

break 

# Send to the printer task 
sched.send('printer', n) 
# Send the next count to the counter task (recursive) 


sched. send ('counter', n-1) 


sched = ActorScheduler () 

# Create the initial actors 
sched.new_actor('printer', printer()) 
sched.new_actor('counter', counter (sched) ) 


# Send an initial message to the counter to initiate 
sched.send('counter', 10000) 
sched. run () 


这 段 代 码 的 执行 流程 可 能 需要 研究 一 番 , 但 是 关键 点 就 在 于 挂 起 的 消息 组 成 的 队列 上 。 
基本 上 , 只 要 有 消息 需要 传递 , 调度 器 就 会 运行 。 这 里 有 一 个 值得 注意 的 特性 ，counter 
生成 器 发 送 消息 给 自己 并 进入 一 个 递归 循环 ， 但 却 并 不 会 受到 Python 的 递归 限制 。 
下 面 有 一 个 高 级 的 示例 ， 展 示 了 如 何 使 用 生成 器 来 实现 一 个 并 发 型 的 网 络 应 用 : 


from collections import deque 

















from select import select 


# This class represents a generic yield event in the scheduler 
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class YieldEvent: 
def handle_yield(self, sched, task): 
pass 
def handle_resume(self, sched, task): 
pass 


# Task Scheduler 
class Scheduler: 
def init__(self): 


self._numtasks = 0 # Total num of tasks 
self._ready = deque() # Tasks ready to run 
self._read_waiting = {} # Tasks waiting to read 
self._write_waiting = {} # Tasks waiting to write 


# Poll for I/O events and restart waiting tasks 
def _iopoll (self): 


rset,wset,eset = select (self._read_waiting, 








self._write_waiting, []) 

for r in rset: 
evt, task = self._read_waiting.pop(r) 
evt.handle_resume (self, task) 

for w in wset: 





evt, task = self._write_waiting.pop (w) 
evt .handle_resume (self, task) 





def new(self,tas 


meer 


Add a newly started task to the scheduler 


meer 


self._ready.append((task, None) ) 
self._numtasks += 1 


def add_ready(self, task, msg=None): 
pre 
Append an already started task to the ready queue. 
msg is what to send into the task when it resumes. 


meer 


self._ready.append((task, msg) ) 


# Add a task to the reading set 
def read wait (self, fileno, evt, task): 


self._read_waiting[fileno] = (evt, task) 


# Add a task to the write set 
def write wait (self, fileno, evt, task): 
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self._write_waiting[fileno] = (evt, task) 


def run(self): 


oer 


Run the task scheduler until there are no tasks 
ree 
while self._numtasks: 
if not self._ready: 
self._iopoll() 
task, msg = self._ready.popleft () 
try: 
# Run the coroutine to the next yield 
r = task.send(msg) 
if isinstance(r, YieldEvent): 
r.handle_yield(self, task) 
else: 
raise RuntimeError('unrecognized yield event') 
except StopIteration: 


self._numtasks -= 1 


# Example implementation of coroutine-based socket I/0 
class ReadSocket (YieldEvent) : 
def _ init__(self, sock, nbytes): 
self.sock = sock 
self.nbytes = nbytes 
def handle_yield(self, sched, task): 
sched._read_wait (self.sock.fileno(), self, task) 
def handle_resume(self, sched, task): 
data = self.sock.recv(self.nbytes) 
sched.add_ready (task, data) 


class WriteSocket (YieldEvent) : 
def _ init__(self, sock, data): 
self.sock = sock 
self.data = data 
def handle_yield(self, sched, task): 
sched. write wait (self.sock.fileno(), self, task) 
def handle_resume(self, sched, task): 
nsent = self.sock.send(self.data) 
sched. add_ready (task, nsent) 


class AcceptSocket (YieldEvent) : 
def _ init__(self, sock): 
self.sock = sock 
def handle_yield(self, sched, task): 
sched._read_wait (self.sock.fileno(), self, task) 
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def handle_resume(self, sched, task): 
r = self.sock.accept () 
sched.add_ready (task, r) 


# Wrapper around a socket object for use with yield 
class Socket (object) : 
def _ init__(self, sock): 
self._sock = sock 
def recv(self, maxbytes): 
return ReadSocket (self._sock, maxbytes) 
def send(self, data): 
return WriteSocket (self._sock, data) 
def accept (self): 
return AcceptSocket (self._sock) 
def _ getattr__(self, name): 
return getattr(self._sock, name) 


if name == '  main_!': 
from socket import socket, AF_INET, SOCK_STREAM 
import time 





# Example of a function involving generators. This should 
# be called using line = yield from readline (sock) 
def readline (sock): 
chars = [] 
while True: 
c = yield sock.recv(1) 
if not c: 
break 
chars. append (c) 
if c == b'\n': 
break 
return b''.join (chars) 


# Echo server using generators 
class EchoServer: 
def _ init__(self, addr, sched): 
self.sched = sched 
sched.new(self.server_loop (addr) ) 


def server_loop(self,addr): 
s = Socket (socket (AF_INET, SOCK_STREAM) ) 
s. bind (addr) 
s. listen (5) 
while True: 
cra = yield s.accept () 
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print ('Got connection from ', a) 
self.sched.new(self.client_handler (Socket (c) )) 


def client_handler(self,client): 
while True: 
line = yield from readline (client) 
if not line: 
break 
line = b'GOT:' + line 
while line: 
nsent = yield client.send(line) 
line = line[nsent:] 
client .close() 
print ('Client closed') 


sched = Scheduler () 
EchoServer (('', 16000) , sched) 
sched. run () 


这 段 代 码 显 然 需 要 花 上 一 段 时 间 来 仔细 研究 。 然 而 ， 这 基本 上 实现 了 一 个 小 型 的 操作 
系统 。 有 一 个 队列 (VA deque 实现 ) 用 来 保存 处 于 就 绪 态 的 任务 , 还 有 等 候 区 ( 以 字典 
实现 ) 用 来 保存 因为 等 待 IO 而 进入 休眠 状态 的 任务 。 调度 器 很 大 程度 上 就 是 把 任务 在 
就 绪 队 列 和 IO 等 待 区 之 间 来 回 移动 。 

12.12.3 讨论 

当 构建 基于 生成 器 的 并 发 框架 时 ， 使 用 一 般 形 式 的 yield 是 最 为 常见 的 : 


def some_generator(): 

















result = yield data 








以 这 种 形式 使 用 yield 的 函数 更 常 被 称 为 “ 协 程 ”。 在 调度 器 内 部 ，yield 语句 是 在 循环 
中 按照 如 下 方式 来 处 理 的 : 


f = some_generator () 





# Initial result. Is None to start since nothing has been computed 
result = None 
while True: 
try: 
data = f.send(result) 
result = ... do some calculation ... 
except StopIteration: 
break 
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这 里 关于 result 的 逻辑 似乎 有 点 令 人 费解 ,然而 ,传递 给 send0 的 值 就 是 用 来 定义 当 yield 
语句 恢复 执行 后 返回 的 结果 。 因 此 ， 如 果 有 yield 语句 要 返回 一 个 结果 作为 对 之 前 产生 
的 数据 的 响应 ,那么 它 就 会 在 下 一 个 send0 操 作 中 返回 。 如 果 某 个 生成 器 函数 刚刚 启动 ， 
发 送 None 给 它 会 让 它 前 进 到 第 一 个 yield 语句 的 位 置 。 

除了 可 以 发 送 值 以 外 ， 还 可 以 在 生成 器 上 执行 close() 方 法 。 这 么 做 会 导致 在 yield 语句 
上 产生 一 个 无 声 的 GeneratorExit 异常 ， 这 会 终止 生成 器 的 执行 。 如 果 需 要 的 话 , 生成 
器 可 以 捕获 这 个 异常 并 执行 清理 操作 。 也 可 以 使 用 生成 器 的 throw0 方 法 在 yield 语句 
上 产生 一 个 任意 的 异常 。 任 务 调度 器 可 能 会 使 用 这 个 异常 给 运行 中 的 生成 器 传达 错误 
=H 


A o 


最 后 那个 示例 中 用 到 的 yield from 语句 是 用 来 实现 协 程 的 ， 它 可 以 作为 子 例 程 
(subroutine ) 或 过 程 (procedure ) 从 其 他 的 生成 器 中 调用 。 基 本 上 来 说 ,程序 的 控制 流 
是 以 透明 的 方式 转移 到 新 的 函数 中 的 。 与 普通 的 生成 器 不 同 的 是 , 采用 yield from 调用 
的 函数 ， 其 返回 值 可 以 成 为 yield from 语句 的 结果 。 有 关 yield from 的 更 多 信息 可 以 在 
PEP 380 ( http://www.python.org/dev/peps/pep-0380 ) 中 找到 。 


最 后 ,如 果 要 用 生成 需 来 编程 , 需要 重点 强调 关于 生成 融 的 一 些 主 要 局 限 。 尤 其 是 ， 
线程 所 提供 的 优势 在 生成 器 中 都 不 复 存在 了 。 例如 , 如 果 执 行 了 任何 CPU 密集 型 或 
者 VO 阻塞 型 的 代码 ， 这 就 会 使 整个 任务 调度 器 挂 起 ， 直 到 完成 全 部 操作 为 止 。 为 
了 规避 这 个 限制 , 唯一 的 选择 就 是 将 这 个 操作 转移 到 一 个 可 以 独立 运行 的 线程 或 进 
程 中 执行 。 另 一 个 限制 在 于 大 多 数 Python 库 的 实现 还 不 能 和 基于 生成 器 的 线程 很 
好 地 配合 在 一 起 使 用 。 如 果 选 择 了 这 种 方法 ， 会 发 现 需要 为 许多 标准 库 函 数 编写 
新 的 替换 版 本 。 有 关 协 程 的 基础 背景 和 本 节 中 所 采用 的 技术 ， 可 以 参阅 PEP 342 
(http://www.python.org/dev/peps/pep-0342 ) 以 及 David Beazley 在 PyCon 2009 上 做 的 报告 


“A Curious Course On Coroutines and Concurrency” (http://www.dabeaz.com/coroutines )。 


PEP 3156 ( http://www.python.org/dev/peps/pep-3156 ) 中 也 采用 了 现代 化 的 方法 来 处 理 异 
步 WO， 其 中 也 涉及 了 协 程 。 在 实践 中 自己 编写 一 个 底层 的 协 程 调度 带 是 极 不 可 能 的 。 
然而 ， 有 许多 流行 的 Python 程序 库 都 是 以 协 程 的 思想 为 基础 的 ， 这 包括 gevent 
( http://www.gevent.org )、greenlet ( http://pypi.python.org/pypi/greenlet )、 Stackless Python 
( http://www.stackless.com ) 以 及 其 他 类 似 的 项 目 。 




























































































































































































12.13 ” 轮 询 多 个 线程 队列 


12.13.1 问题 


我 们 有 一 组 线程 队列 ， 想 轮 询 这 些 队列 来 获取 数据 。 很 大 程度 上 这 和 轮 询 一 组 网 络 连 
接 来 获取 数据 类 似 。 
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1213.2 ”解决 方案 


对 于 轮 询问 题 ， 我 们 常用 的 解决 方案 中 涉及 一 个 鲜 为 人 知 的 技巧 ， 即 利用 隐藏 的 环 回 
(loopback ) 网 络 连接 。 基 本 上 来 说 思路 是 这 样 的 : 针对 每 个 想 要 轮 询 的 队列 (或 任何 
对 象 )， 创 建 一 对 互联 的 socket。 然 后 对 其 中 一 个 socket 执行 写 操作 ， 以 此 表示 数据 存 


























TE. Fi— socket 就 传递 给 select0 或 者 类 似 的 函数 来 轮 询 数据 。 下 面 用 一 些 简 
码 来 说 明 这 个 思 


import queue 





import socket 
import os 


class PollableQueue (queue.Queue) : 
def _ init__(self): 
super ().__init__() 
# Create a pair of connected sockets 
if os.name == 'posix!: 
self._putsocket, self._getsocket = socket.socketpair () 
else: 
# Compatibility on non-POSIX systems 
server = socket.socket (socket.AF_INET, socket .SOCK_STREAM) 
server.bind(('127.0.0.1', 0)) 
server. listen (1) 
self._putsocket = socket.socket (socket.AF_INET, socket .SOCK_STREAM) 
self._putsocket.connect (server.getsockname () ) 





self._getsocket, _ = server.accept () 


server.close () 


def fileno (self): 
return self._getsocket.fileno() 


def put(self, item): 
super () .put (item) 
self._putsocket.send(b'x') 


def get (self): 
self._getsocket.recv (1) 
return super() .get () 


在 这 份 代码 中 ,我 们 定义 了 一 种 新 的 Queue 实例 ,其 底层 有 一 对 互联 的 socket. E 











的 代 


UNIX 


上 用 socketpair() 函 数 来 建立 这 样 的 socket 对 是 非常 容易 的 。 在 Windows 上 上， 我们 不 得 
不 使 用 示例 中 展示 的 方法 来 伪装 socket 对 (这 看 起 来 有 些 怪异 ， 首 先 创建 一 个 服务 器 
Socket， 之 后 立刻 创建 客户 端 socket 并 连接 到 服务 器 上 )。 之 后 对 get0 和 put() 方 法 做 了 

















些微 重 构 ， 在 这 些 socket 上 执行 了 少量 的 VO 操作 。put0 方 法 在 将 数据 放 入 队列 之 后 ， 
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对 其 中 一 个 socket 写 人 了 一 个 字 节 的 数据 。 当 要 把 数据 从 队列 中 取出 时 ，get( 方 法 就 
从 男 一 个 socket 中 把 那个 单独 的 字 节 读 出 。 


fileno() 方 法 使 得 这 个 队列 可 以 用 类 似 select0 这 样 的 函数 来 轮 询 。 基 本 上 来 说 ，fileno0 
方法 只 是 暴露 出 底层 由 getO 函 数 所 使 用 的 socket 的 文件 描述 符 。 


下 面 的 代码 示例 定义 了 一 个 消费 者 ， 用 来 在 多 个 队列 上 监视 是 否 有 数据 到 来 : 


import select 























import threading 


def consumer (queues): 


Consumer that reads data on multiple queues simultaneously 


while True: 


can_read, _, = select.select (queues, [],[]) 


for r in can_read: 
item = r.get() 


print ('Got:', item) 


ql = PollableQueue () 

q2 = PollableQueue () 

q3 = PollableQueue () 

t = threading.Thread(target=consumer, args=([ql,q2,q3],)) 
t.daemon = True 

t.start () 


# Feed data to the queues 
) 
0) 
"hello') 
5) 











如 果 试 着 运行 这 段 代码 ， 就 会 发 现 不 管 把 数据 放 人 到 哪个 队列 中 ， 消 费 者 最 后 都 能 接 
收 到 所 有 的 数据 。 


12.13.3 ”讨论 


要 对 非 文 件 类 型 的 对 象 比如 队列 做 轮 询 操作 ， 通 常 都 是 看 起 来 简单 做 起 来 难 。 比 如 说 ， 
如 果 不 采 用 本 方 展示 的 socket 技术 ， 那 唯一 的 选择 就 是 遍历 所 有 的 队列 ， 分 别 判断 每 
个 队列 是 否 为 空 ,而且 还 得 使 用 定时 器 (避免 CPU 利用 率 达 到 100% )。 就 像 下 面 这 样 : 


import time 





























def consumer (queues) : 
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while True: 
for q in queues: 
if not g.empty(): 
item = q.get() 
print ('Got:', item) 
# Sleep briefly to avoid 100% CPU 
time.sleep (0.01) 








这 对 于 某 些 特定 类 型 的 问题 或 许 是 行 得 通 的 ， 但 是 这 人 么 做 很 笨拙 ， 而 且 还 会 引入 奇怪 
的 性 能 方面 的 问题 。 例 如 ， 如 果 新 的 数据 添加 到 了 一 个 队列 中 ,那么 至 少 有 10 毫秒 的 
时 间 才 能 检测 到 〈 对 于 一 个 现代 的 处 理 器 来 说 ，10 毫秒 就 好 像 下 辈子 那么 漫长 )。 
如 果 将 上 面 这 种 轮 询 方式 同 其 他 的 轮 询 对 象 ( 比如 socket ) 混在 一 起 使 用 , 那么 会 遇 到 
更 多 问题 。 例 如 ， 如 果 想 同时 轮 询 socket 和 队列 ， 那 就 不 得 不 使 用 这 样 的 代码 : 


import select 











def event_loop(sockets, queues): 
while True: 
# polling with a timeout 
can_read, _, _ = select.select (sockets, [], [], 0.01) 
for r in can_read: 
handle_read(r) 
for q in queues: 
if not g.empty(): 
item = q.get() 
print ('Got:', item) 





AST SAH HURT AER SARA, OE BEA socket 同等 的 
地 位 上 来 解决 的 。 只 要 一 个 单独 的 selectO 调 用 就 可 以 轮 询 这 两 种 对 象 的 活跃 性 。 不 需 
要 使 用 超时 或 其 他 基于 时 间 的 技巧 来 做 周期 性 的 检查 。 此 外 ， 如 果 数 据 添加 到 了 队列 
中 ， 消 费 者 几乎 能 在 同一 时 间 得 到 通知 。 尽 管 底层 的 IO 会 带 来 一 点 小 小 的 负载 〈 即 ， 
在 底层 的 socket 对 上 写 人 和 读 出 一 字 节 的 数据 ) 但 由 于 可 以 获得 更 好 的 响应 时 间 以 及 
简化 了 代码 的 编写 ， 因 此 这 么 做 通常 都 是 很 值得 的 。 






































12.14 Æ UNIX 上 加 载 守护 进程 


12.14.1 问题 
我 们 想 编写 一 个 程序 ， 使 它 能 够 在 UNIX 或 类 UNIX 的 操作 系统 上 以 守护 进程 的 方式 运行 。 














”这 种 问题 的 根源 就 在 于 没有 把 队列 和 socket 放 在 同等 的 地 位 上 ， 参 见 本 节 开 头 对 间 题 的 描述 。 一 一 译 
者 注 
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14.2 ”解决 方案 


创建 一 个 合适 的 守护 进程 需要 以 精确 的 顺序 调用 一 系列 的 系统 调用 ， 并 小 心 注意 其 中 
的 细节 。 下 面 的 代码 定义 了 一 个 守护 进程 ， 附 带 还 有 当 启 动 之 后 可 以 轻易 让 它 停止 运 
行 的 能 力 : 











#!/usr/bin/env python3 
# daemon.py 


import os 
import sys 
import atexit 
import signal 


def daemonize (pidfile, *, stdin='/dev/null', 
stdout='/dev/null', 
stderr='/dev/null'): 


if os.path.exists (pidfile): 
raise RuntimeError('Already running') 


# First fork (detaches from parent) 
try: 
if os.fork() > 0: 
raise SystemExit (0) # Parent exit 
except OSError as e: 
raise RuntimeError('fork #1 failed.') 
os.chdir('/') 
os.umask (0) 
os.setsid() 
# Second fork (relinquish session leadership) 
try: 
if os.fork() > 0: 
raise SystemExit (0) 
except OSError as e: 
raise RuntimeError('fork #2 failed.') 


# Flush I/O buffers 
sys.stdout.flush() 
sys.stderr.flush() 


# Replace file descriptors for stdin, stdout, and stderr 
with open(stdin, 'rb', 0) as f: 

os.dup2(f.fileno(), sys.stdin.fileno()) 
with open (stdout, 'ab', 0) as f: 
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def 


if 


os.dup2(f.fileno(), sys.stdout.fileno()) 
with open (stderr, 'ab', 0) as f: 
os.dup2(f.fileno(), sys.stderr.fileno()) 


# Write the PID file 
with open(pidfile,'w') as f: 
print (os.getpid(),file=f) 


# Arrange to have the PID file removed on exit/signal 
atexit.register (lambda: os.remove (pidfile) ) 


# Signal handler for termination (required) 
def sigterm_handler(signo, frame): 
raise SystemExit (1) 


signal.signal(signal.SIGTERM, sigterm_handler) 


main(): 
import time 
sys.stdout.write('Daemon started with pid {}\n'.format (os.getpid()) 
while True: 
sys.stdout.write('Daemon Alive! {}\n'. format (time.ctime())) 
time.sleep (10) 


name__ == '__main__': 





PIDFILE = '/tmp/daemon.pid' 


if len(sys.argv) != 2: 
print ('Usage: {} [start |stop]'. format (sys.argv[0]), file=sys.stderr) 
raise SystemExit (1) 


if sys.argv[1] == 'start!': 
try: 
daemonize (PIDFILE, 
stdout='/tmp/daemon.log', 
stderr='/tmp/dameon.log') 
except RuntimeError as e: 
print(e, file=sys.stderr) 
raise SystemExit (1) 


main () 


elif sys.argv[1] == 'stop!: 


if os.path.exists (PIDFILE) : 
with open(PIDFILE) as f: 
os.kill(int(f.read()), signal.SIGTERM) 
else: 








549 


print ('Not running', file=sys.stderr) 
raise SystemExit (1) 


else: 
print ('Unknown command {!r}'.format (sys.argv[1]), file=sys.stderr) 
raise SystemExit (1) 


要 加 载 这 个 守护 进程 ， 需 要 使 用 下 面 这 样 的 命令 : 


bash % daemon.py start 





bash % cat /tmp/daemon.pid 

2882 

bash % tail -f /tmp/daemon.log 

Daemon started with pid 2882 

Daemon Alive! Fri Oct 12 13:45:37 2012 
Daemon Alive! Fri Oct 12 13:45:47 2012 

















守护 进程 完全 在 后 台 运 行 ， 因 此 命令 会 立刻 返回 。 但是， 可 以 像 上 面 的 命令 那样 检查 
与 守护 进程 相关 的 pid 文件 和 日 志 。 要 停止 这 个 守护 进程 ， 可 以 这 样 : 


bash % daemon.py stop 
bash % 


12.143 ”讨论 


本 节 定 义 的 daemonizeO 函 数 可 以 在 程序 启动 的 时 候 调 用 ， 这 样 可 以 使 程序 以 守护 进程 
的 方式 运行 。daemonizeO 的 函 Ba 的 是 keyword-only 参数 ， 这 样 当 使 用 可 选 参 
数 时 能 让 意图 显得 更 加 清晰 。 这 迫使 用 户 必 须 这 样 来 调用 函数 : 

daemonize('daemon.pid', 


stdin='/dev/null, 
stdout='/tmp/daemon.log', 




















stderr='/tmp/daemon.log') 


而 不 是 使 用 下 面 这 种 神秘 难 懂 的 调用 方式 : 


# Illegal. Must use keyword arguments 





daemonize('daemon.pid', 


'/dev/null', '/tmp/daemon.log','/tmp/daemon.log') 


FE PBN ESE EE AY 2b PR ET o ERRE, AE, SPE PR I 
它 自己 与 父 进 程 分 离开 来 。 这 就 是 第 一 个 os.forkO 操 作 完 成 后 立刻 终结 父 进程 的 目 
的 所 在 。 


当 子 进程 成 为 孤儿 后 ， 就 调用 os.setsid0 创 建 一 个 全 新 的 进程 会 话 ， 并 将 子 进程 设 为 会 
话 的 头领 。 这 么 做 也 将 子 进程 设 为 新 的 进程 组 的 头领 进程 ， 并 确保 没有 任何 与 之 关联 
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的 控制 终端 。 如 果 这 听 起 来 显得 很 神奇 ， 那 么 这 实际 上 是 为 了 以 合适 的 方式 将 守护 进 
程 从 终端 中 分 离开 来 ， 并 确保 像 信号 这 样 的 东西 不 会 影响 到 守护 进程 的 运行 。 

对 os.chdir0 和 os.umask(0) 的 调用 将 改变 当前 的 工作 目录 ， 并 重 置 文件 模式 掩 码 。 改 变 
工作 目录 通常 是 个 好 主意 ， 这 样 守护 进程 就 不 再 工作 于 加 载 它 的 那个 目录 之 下 了 。 

第 二 个 os.fork0 调 用 是 目前 为 止 最 为 神秘 的 操作 。 这 一 步 使 得 守护 进程 放弃 获取 一 个 新 
的 控制 终端 的 能 力 ， 并 为 自己 和 外 部 环境 提供 了 更 多 的 隔离 ( 从 根本 上 说 ， 守 护 进 程 
会 放弃 它 的 会 话 头领 位 置 ， 因 此 不 再 具有 打开 控制 终端 的 权限 了 )。 尽管 可 以 忽略 这 一 
步 ， 但 一 般 来 说 还 是 推荐 这 么 做 的 。 

旦 守护 进程 已 经 以 合适 的 方式 完成 了 分 离 ， 就 执行 后 续 的 步骤 来 重新 初始 化 标准 IO 
流 ， 使 其 指向 由 用 户 指定 的 文件 。 这 一 部 分 的 处 理 实 际 上 也 需要 用 到 一 些 技巧 。 在 
Python 解释 器 中 可 以 找到 多 个 与 标准 VO 流 相 关联 的 文件 对 象 引 用 〈 比如 sys.stdout、 
sys. _stdout__ 等 )。 只 关闭 sys.stdout 并 为 其 重新 赋值 并 不 能 保证 可 以 正常 工作 ， 因 为 
没 法 知道 这 么 做 是 否 可 以 修改 到 所 有 对 sys.stdout 的 引用 。 相 反 ， 我 们 打开 一 个 单独 的 
文件 对 象 ， 并 通过 os.dup20 调 用 来 取代 当前 由 sys.stdout 所 使 用 的 文件 描述 符 。 当 这 一 
切 发 生 的 时 候 ，sys.stdout 原来 所 用 的 文件 会 被 关闭 ， 并 用 新 的 文件 取代 它 的 位 置 。 必 
须要 强调 的 是 ， 任 何 已 经 作用 于 标准 IO 流 的 文件 编码 或 文本 处 理 将 保持 原样 。 
守护 进程 的 一 种 常见 做 法 就 是 将 它 的 进程 DD 写 人 到 一 个 文件 中 , 以 便 稍 后 给 其 他 的 程 
序 使 用 。daemonize0 〇 函数 最 后 的 部 分 正 是 在 执行 写 文 件 的 操作 ， 但 同样 也 做 了 安排 ， 
可 以 让 这 个 文件 在 程序 终止 时 被 删除 。 由 atexitregister0 注 册 的 函数 可 以 在 Python 解释 
器 退出 时 得 到 执行 。 针 对 信号 SIGTERM 所 定义 的 信号 处 理 例 程 同样 需要 以 优雅 得 体 的 
方式 退出 。 这 个 信和 号 处 理 例 程 只 是 发 出 SystemExit0 异 常 ， 除 此 之 外 什么 都 不 做 。 这 乍 
看 起 来 是 没有 必要 的 ， 但 如 果 没 有 这 个 信号 处 理 例 程 ， 终 止 信号 就 会 杀 死 解释 器 进程 
而 不 会 执行 注册 到 atexitregister0 中 的 清理 函数 。 杀 死守 护 进程 的 代码 示例 可 以 在 程序 
结尾 部 分 处 理 stop 命令 的 地 方 找到 。 

更 多 关于 编写 守护 进程 的 信息 可 以 在 W.Richard Stevens 和 Stephen A.Rago 合 著 的 
Advanced Programming in the UNIX Environment, 2nd Edition ( Addison-Wesley, 2005 ) 
中 找到 。 尽 管 此 书 的 重点 是 用 C 语言 来 编程 ， 但 所 有 的 内 容 都 很 容易 适应 于 Python。 
因为 所 有 所 需 的 POSIX KARE LIE Python 标准 库 中 找到 。 
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有 很 多 人 把 Python 当做 shell 脚本 的 替代 , 用 来 实现 系统 任务 的 自动 化 处 理 ， 比 如 操纵 
文件 、 配 置 系 统 等 。 本 章 的 主要 目标 是 描述 编写 脚本 时 常会 遇 到 的 一 些 任务 。 比 如 ， 
解析 命令 行 选项 、 操 纵 文件 系统 中 的 文件 、 获 取 有 用 的 系统 配置 数据 等 。 本 书 第 5 章 


中 也 包含 了 一 些 与 文件 和 目录 相关 的 信息 。 
13.1 通过 重 定 向 、 管 道 或 输入 文件 来 作为 脚 
本 的 输入 


13.1.1 问题 

我 们 希望 自己 编写 的 脚本 能 够 接受 任意 一 种 对 用 户 来 说 最 为 方便 的 输入 机 制 。 这 应 该 
包括 从 命令 中 产生 输出 给 和 脚本、 把 文件 重 定向 到 脚本 ,或 者 只 是 在 命令 行 中 传递 一 个 
或 者 一 列 文件 名 给 脚本 。 


13.1.2 ”解决 方案 
Python 内 置 的 fileinput 模块 使 得 这 一 切 变 得 非常 简单 。 如 果 有 一 个 类 似 下 面 这 样 的 脚本 : 
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#!/usr/bin/env python3 
import fileinput 


with fileinput.input() as f_input: 
for line in f input: 
print (line, end='') 


那么 已 经 可 以 让 脚本 按照 上 述 所 有 的 方式 来 接收 输入 了 。 如 果 将 这 个 脚本 保存 为 
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filein. py 并 使 其 成 为 可 执行 的 ， 那 么 就 能 够 完成 下 列 所 有 的 操作 并 得 到 期 望 的 输出 : 


$ ls | ./filein.py # Prints a directory listing to stdout. 
$ ./filein.py /etc/passwd # Reads /etc/passwd to stdout. 
$ ./filein.py < /etc/passwd # Reads /etc/passwd to stdout. 


13.1.3 iit 


函数 包 einput.inputO 创 建 并 返回 一 个 FileInput 类 的 实例 。 除 了 包含 有 一 些 方便 实用 的 帮 
助 函数 外 ， 该 实例 还 可 以 当做 上 下 文 管理 器 来 用 。 因 此 ， 把 所 有 这 些 结合 在 一 起 ， 如 
我 们 编写 一 个 脚本 期 望 它 能 立刻 从 多 个 文件 中 打印 和 输出， 我 们 可 以 在 输出 中 包含 文 
件 名 和 行 号 信息 ， 就 像 下 面 这 样 : 

>>> import fileinput 


>>> with fileinput.input('/etc/passwd') as f: 
>>> for line in f: 



































Y 








print (f.filename(), f.lineno(), line, end='') 


/etc/passwd 1 ## 
/etc/passwd 2 # User Database 
/etc/passwd 3 # 


<other output omitted> 


把 它 当 做 上 下 文 管理 需 来 使 用 可 确保 文件 不 再 使 用 时 会 被 关闭 ， 此 外 我 们 这 里 还 利 有 
T FileInput 实例 的 帮助 函数 来 获取 一 些 额 外 的 信息 。 








ay 





13.2 ”终止 程序 并 显示 错误 信息 
13.2.1 问题 
我 们 想 让 自己 的 程序 在 终止 时 向 标准 错误 输出 打印 一 条 消息 并 返回 一 个 非 零 的 状态 码 。 


13.2.2 ”解决 方案 


要 让 程序 以 这 种 方式 终止 ， 可 以 发 出 一 个 SystemExit 异常 ， 但 是 要 提供 错误 信息 作为 
参数 。 示 例如 下 : 


raise SystemExit ('It failed!') 


这 会 导致 提供 的 信息 被 打印 到 sys.stderr 上 ， 且 程序 退出 时 的 状态 码 为 1。 


13.2.3 iit 


本 节 的 内 容 十 分 短小 , 但 是 解决 了 编写 脚本 时 的 一 个 常见 问题 。 即 ， 要 终止 一 个 程序 ， 
以 前 可 能 会 倾向 于 编写 这 样 的 代码 : 
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import sys 
sys.stderr.write('It failed!\n') 
raise SystemExit (1) 


现在 ， 不 需要 再 同 这 些 import 或 者 sys.stderr 搅和 在 一 起 了 ， 只 需要 给 SystemExit( He 
供 一 条 错误 信息 即 可 。 








13.3 解析 命令 行 选项 


13.3.1 问题 
我 们 想 编写 一 个 程序 用 来 解析 在 命令 行 中 提供 的 各 种 选项 ( 选项 保存 在 sys.argv 中 )。 


13.3.2 ”解决 方案 
可 以 用 argparse 模块 来 解析 命令 行 选项 。 我 们 用 一 个 简单 的 例子 来 帮助 说 明 这 里 的 核心 特性 ; 


# search.py 


rrr 




















Hypothetical command-line tool for searching a collection of 
files for one or more text patterns. 

peer 

import argparse 

parser = argparse.ArgumentParser (description='Search some files') 


parser.add_argument (dest='filenames',metavar='filename', nargs='*') 


parser.add_argument ('-p', '--pat',metavar='pattern', required=True, 
dest='patterns', action='append', 
help='text pattern to search for') 


parser.add_argument ('-v', dest='verbose', action='store true', 
help='verbose mode') 


parser.add_argument ('-o', dest='outfile', action='store', 
help='output file') 


parser.add_argument ('--speed', dest='speed', action='store', 
choices={'slow','fast'}, default='slow', 
help='search speed') 


args = parser.parse_args() 


# Output the collected arguments 
print (args. filenames) 

print (args.patterns) 

print (args.verbose) 
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print (args.outfile) 
print (args.speed) 





这 个 程序 定义 了 一 个 命令 行 解析 器 ， 其 用 法 是 这 样 的 : 
bash % python3 search.py -h 


usage: search.py [-h] [-p pattern] [-v] [-o OUTFILE] [--speed {slow, fast}] 
[filename [filename ...]] 


Search some files 


positional arguments: 
filename 


optional arguments: 
-h, --help show this help message and exit 


-p pattern, --pat pattern 
text pattern to search for 


-vV verbose mode 
=o OUTFILE output file 
--speed {slow, fast} search speed 








接 下 来 的 交互 式 会 话 展 示 了 数据 在 程序 中 的 显示 方式 ， 请 仔细 观察 print0 语 句 的 输出 。 


bash % python3 search.py foo.txt bar.txt 

usage: search.py [-h] -p pattern [-v] [-o OUTFILE] [--speed {fast,slow}] 
[filename [filename ...]] 

search.py: error: the following arguments are required: -p/--pat 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt 


filenames = ['foo.txt', 'bar.txt'] 
patterns = ['spam', 'eggs'] 
verbose = True 

outfile = None 

speed = slow 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt -o results 


filenames = ['foo.txt', 'bar.txt'] 
patterns = ['spam', 'eggs'] 
verbose = True 

outfile = results 

speed = slow 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt -o results \ 


--speed=fast 
filenames = ['foo.txt', 'bar.txt'] 
patterns = ['spam', 'eggs'] 
verbose = True 
outfile = results 
speed = fast 
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如 何 对 选项 做 进一步 的 处 理 则 取决 于 程序 员 自 己 。 只 要 把 printO 替 换 成 其 他 更 有 意义 的 
函数 即 可 。 


13.3.3 讨论 

argparse 模块 是 标准 库 中 最 为 庞大 的 模块 之 一 ， 有 着 非常 多 的 配置 选项 。 本 节 仅 展示 其 
中 的 基本 子 集 ， 可 以 通过 使 用 这 些 子 集 来 人 门 并 进行 扩展 。 

要 解析 命令 行 选 项 , 首先 需要 创建 一 个 ArgumentParser 实例 , 并 通过 使 用 add_argument() 
方法 来 添加 想 要 支持 的 选项 声明 。 在 每 个 add_argumentO 调 用 中 , 参数 dest 指定 了 用 来 
保存 解析 结果 的 属性 名 称 。 而 当 产 生 帮 助 信息 时 会 用 到 参数 metavar。 参 数 action 则 指 
定 了 与 参数 处 理 相 关 的 行为 , 通常 用 store 来 表示 存储 单个 值 , 或 者 用 append 来 表示 将 
多 个 值 保存 到 一 个 列表 中 。 

下 面 的 参数 表示 将 所 有 额外 的 命令 行 参数 保存 到 一 个 列表 中 。 在 示例 中 ， 这 条 语句 用 
来 创建 一 个 文件 名 列表 : 


parser.add argument (dest='filenames',metavar='filename', nargs='*') 


接 下 来 的 参数 设 定 了 一 个 布尔 标记 ,标记 的 值 取决 于 参数 是 否 有 提供 : 


parser.add argument ('-v', dest='verbose', action='store true', 













































































help='verbose mode') 


下 面 的 参数 表示 接受 一 个 单独 的 值 并 将 其 保存 为 字符 串 : 


parser.add_argument ('-o', dest='outfile', action='store', 





help='output file') 
下 面 语句 中 指定 的 参数 可 允许 命令 行 参数 重复 多 次 ， 并 将 所 有 的 参数 值 保存 在 列表 中 。 
required 标记 意味 着 参数 必须 至 少 要 提供 一 次 。 使 用 -p 和 --pat 表示 这 两 种 选项 名 称 都 是 
可 接受 的 。 


parser.add_argument ('-p', '--pat',metavar='pattern', required=True, 





























dest='patterns', action='append', 
help='text pattern to search for') 


最 后 ， 下 面 语句 中 指定 的 参数 可 接受 一 个 值 ， 但 会 将 这 个 值 同一 组 可 能 的 选择 做 对 比 。 


parser.add_argument ('--speed', dest='speed', action='store', 











choices={'slow','fast'}, default='slow', 
help='search speed') 


一 旦 选项 已 经 给 出 ， 只 需要 简单 地 执行 parserparse() 方 法 。 这 么 做 会 处 理 sys.argv 的 值 ， 
并 返回 结果 实例 。 每 个 命令 行 参数 解析 出 的 结果 都 会 保存 在 由 dest 参数 所 指定 的 对 应 
的 属性 中 。 
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还 有 其 他 几 种 方法 可 用 来 解析 命令 行 选项 。 例如, 我 们 可 能 会 倾向 于 自己 手动 处 理 sys.argv 
或 者 使 用 getopt 模块 (仿照 类 似 的 C 库 打造 ) 但 是 ， 如 果 采 用 这 种 方法 ， 那 就 会 导致 
重复 编写 很 多 argparse 已 经 提供 的 代码 。 也 许 会 遇 到 使 用 optparse 库 来 解析 命令 行 选项 
的 代码 。 尽 管 optparse 和 argparse 很 相似 , 但 后 者 更 加 现代 化 , 在 新 项 目 中 应 该 优先 选 
择 使 用 argparse。 
































13.4 ”在 运行 时 提供 密码 输入 提示 


13.4.1 ”问题 

我 们 已 经 编写 好 了 一 个 脚本 ， 其 中 需要 用 户 输入 密码 。 但 是 由 于 脚本 是 用 来 做 交互 式 
使 用 的 ， 我 们 想 为 用 户 提供 密码 输入 提示 〈 此 时 用 户 输入 的 密码 不 会 显示 在 终端 上 ) 
而 不 是 将 其 硬 编码 到 脚本 中 。 


13.4.2 ”解决 方案 
在 这 种 情况 下 ，Python 的 getpass 模块 正 是 你 所 需要 的 。 它 可 以 让 我 们 非常 方便 地 为 用 
户 提供 密码 输入 ， 而 不 会 将 输入 的 密码 显示 在 终端 屏幕 上 。 示 例如 下 : 







































































import getpass 


user = getpass.getuser () 
passwd = getpass.getpass () 


if svc_login(user, passwd): # You must write svc_login() 
print ('Yay!') 

else: 
print ('Boo!') 























在 上 述 代码 中 , PRC sve login0 是 我 们 必须 自行 编写 的 代码 , 用 来 进一步 处 理 输入 的 密码 。 
显然 ， 具 体 的 处 理 步 又 是 特定 于 应 用 的 。 


13.4.3 ”讨论 
注意 ,在 上 面 的 代码 中 ，getpass.getuser0 并 不 会 提示 用 户 输入 用 户 和 名。 相反 ， 它 会 根据 


用 户 的 shell 环境 使 用 当前 的 用 户 登 录 名 。 或 者 作为 最 后 的 手段 ， 以 本 地 系统 的 密码 数 
据 库 ( 在 支持 pwd 模块 的 平台 上 ) ASCE. 


如 果 为 了 更 加 可 靠 ， 想 显 式 给 用 户 提供 用 户 名 输入 ， 那 么 可 以 使 用 内 置 的 input 函数 : 


user = input('Enter your username: ') 





























同样 需要 记得 的 是 ， 在 有 些 系统 上 可 能 不 支持 将 输入 给 getpass( 方 法 的 密码 做 隐藏 处 
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理 。 在 这 种 情况 下 ，Python 会 竭尽 所 能 的 发 出 预警 信息 〈 例如 ， 在 继续 处 理 前 警告 你 
密码 将 以 明文 形式 显示 )。 


13.5 ”获取 终端 大 小 


13.5.1 问题 

我 们 需要 获取 终端 的 大 小 ， 以 此 对 程序 的 输出 做 适当 的 格式 化 处 理 。 
13.5.2 ”解决 方案 

可 以 使 用 os.get terminal size() 函数 来 办 到 : 


>>> import os 








>>> sz = os.get_terminal_size() 

>>> sz 

os.terminal_size(columns=80, lines=24) 
>>> sz.columns 

80 

>>> sz.lines 

24 

>>> 


13.5.3 ”讨论 

还 有 许多 其 他 的 方法 来 获取 终端 的 大 小 ， 从 读 取 环境 变量 到 执行 涉及 ioctl Fl TTY 的 
底层 系统 调用 都 可 以 。 坦 白地 说 ， 如 果 一 个 简单 的 调用 就 能 解决 问题 ， 为 什么 还 要 操 
心 那 些 细节 呢 ? 








13.6 ”执行 外 部 命令 并 获取 输出 
13.6.1 问题 
我 们 想 执 行 一 个 外 部 命令 并 把 输出 保存 为 一 个 Python 字符 串 。 


13.6.2 ”解决 方案 
可 以 使 用 函数 subprocess.check_ outputO 来 完成 。 示 例如 下 : 











import subprocess 


out bytes = subprocess.check_output (['netstat','-a']) 


这 么 做 会 运行 指定 的 命令 ， 并 将 输出 结果 以 字 节 串 的 形式 返回 。 如 果 需 要 将 返回 的 结 








果 字 节 以 文本 的 形式 来 解读 ， 可 以 再 增加 一 个 解码 的 步 又 。 示 例如 下 : 


out text = out_bytes.decode('utf-8') 


如 果 执 行 的 命令 返回 了 一 个 非 零 的 退出 码 ， 那 么 就 会 产生 一 个 异常 。 下 面 的 示例 可 以 
捕获 错误 并 获取 创建 的 输出 以 及 退出 码 : 


try: 











out bytes = subprocess.check_output (['cmd', 'argl', 'arg2']) 
except subprocess.CalledProcessError as e: 

out_bytes = e.output # Output generated before error 

code = e.returncode # Return code 


默认 情况 下 ，check_outputO 只 会 返回 写 入 到 标准 输出 中 的 结果 。 如 果 和 希望 标准 输出 和 
标准 错误 输出 都 能 获取 到 ， 那 么 可 以 使 用 参数 stderr: 


out bytes = subprocess.check_output (['cmd','argl','arg2'], 
stderr=subprocess. STDOUT) 


如 果 需 要 执行 一 个 带 有 超时 机 制 的 命令 ， 可 以 使 用 参数 timeout: 


try: 














out bytes = subprocess.check_output (['cmd','argl','arg2'], timeout=5) 
except subprocess.TimeoutExpired as e: 








一 般 来 说 ， 命 令 的 执行 不 需要 依赖 底层 shell 的 支持 (例如 sh, bash 4), FAR, FRAT 
提供 的 字符 串 列 表 会 传递 给 底层 统 命令 ， 比 如 os.execve0。 如 果 硕 望 命令 通过 shell 
来 解释 执行 ,只 要 将 命令 以 简单 的 字符 串 形式 提供 并 给 定 参 数 shell=True 即 可 。 如 果 打 
算 让 Python 执行 一 个 涉及 管道 、UO 重 定向 或 其 他 特性 的 复杂 shell 命令 时 ， 这么 做 往往 
是 很 有 用 的 。 例 如 ; 


out_bytes = subprocess.check_output ('grep python | we > out', shell=True) 


请 注意 , 在 shell 下 执行 命令 是 有 着 潜在 的 安全 威胁 的 ， 特 别 是 当 参 数 来 自 于 用 户 的 输入 
时 更 是 如 此 。 在 这 种 情况 下 ，shlex.quote0 函 数 可 用 来 正确 引用 包含 在 shell 命令 中 的 参数 。 


13.6.3 iit 


执行 一 个 外 部 命令 并 获取 输出 ， 最 简单 的 方法 就 是 使 用 check_outputO 函 数 了 。 但 是 ， 
如 果 需 要 同一 个 子 进程 执行 更 加 高 级 的 通信 ， 例 如 为 其 发 送 输入 ， 那 就 需要 采用 不 同 
的 方法 了 。 基 于 此 ， 可 以 直接 使 用 subprocess.Popen 类 。 示 例如 下 : 


import subprocess 




































































# Some text to send 
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text = b'''! 
hello world 
this is a test 
goodbye 


# Launch a command with pipes 

p = subprocess.Popen(['we'], 
stdout = subprocess.PIPE, 
stdin = subprocess.PIPE) 


# Send the data and get the output 
stdout, stderr = p.communicate (text) 


# To interpret as text, decode 
out = stdout.decode('utf-8"') 
err = stderr.decode('utf-8"') 





如 果 某 个 外 部 命令 期 望 同一 个 真正 的 TTY ( 即 , 终端 设备 ) 进行 交互 ,那么 subprocess 
模块 不 适合 同 这 样 的 外 部 命令 进行 通信 。 例 如 ， 我 们 不 能 用 它 来 实现 自动 向 用 户 请 求 
输入 密码 的 任务 〈 比如 一 个 ssh 会 话 )。 对 于 这 种 需求 ， 需 要 使 用 第 三 方 模块 来 完成 ， 
比如 那些 基于 流行 的 “expect” 族 的 工具 ( 如 pexpect 或 类 似 的 工具 )。 


13.7 ”拷贝 或 移动 文件 和 目录 


13.7.1 ”问题 
我 们 需要 拷贝 或 移动 文件 和 目录 ， 但 是 不 想 通过 调用 shell 命令 来 完成 。 


13.7.2 ”解决 方案 
shutil 模块 中 有 着 可 移植 的 函数 实现 ， 可 用 来 拷贝 文件 和 目录 ， 用 法 相当 直接 ， 示 例如 下 ; 


import shutil 





























# Copy src to dst. (cp src dst) 
shutil.copy(src, dst) 


# Copy files, but preserve metadata (cp -p src dst) 
shutil.copy2(src, dst) 


# Copy directory tree (cp -R src dst) 








shutil.copytree(src, dst) 
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# Move src to dst (mv src dst) 
shutil.move (src, dst) 


些 函 数 的 参数 全 都 是 字符 串 ， 用 来 提供 文件 或 目录 的 名 称 。 如 同 注释 中 说 明 的 那样 ， 
些 函 数 的 底层 语义 是 在 尝试 模仿 类 似 的 UNIX 命令 。 
默认 情况 下 ， 符 号 链接 也 适用 于 这 些 命令 。 例 如 ， 如 果 源 文件 是 一 个 符号 链接 ， 那 么 
目的 文件 将 会 是 该 链接 所 指向 的 文件 的 拷贝 。 如 果 只 想 拷 贝 符号 链接 本 身 ， 可 以 提供 
关键 字 参 数 follow_symlinks ， 示 例如 下 : 

shutil.copy2(src, dst, follow_symlinks=False) 
如 果 想 在 拷贝 的 目录 中 保留 符号 链接 ， 可 以 这 么 做 : 

shutil.copytree(src, dst, symlinks=True) 
copytree0 函 数 以 可 选 的 方式 允许 在 拷贝 的 过 程 中 忽略 特定 的 文件 和 目录 。 为 了 做 到 这 


点 ， 需 要 提供 一 个 ignore 函数 ， 该 函数 以 目录 名 和 文件 名 作为 输入 参数 ， 返 回 一 列 要 
忽略 的 名 称 作为 结果 。 示 例如 下 : 


def ignore pyc_files(dirname, filenames): 






































return [name in filenames if name.endswith('.pyc') ] 


shutil.copytree(src, dst, ignore=ignore pyc files) 


由 于 和 忽略 文件 名 这 种 模式 非常 常见 ,已 经 有 一 个 实用 函数 ignore_patterns() 提 供给 我 们 
使 用 了 。 示 例如 下 : 


shutil.copytree(src, dst, ignore=shutil.ignore patterns('*~','*.pyc')) 


13.7.3 ”讨论 

大 部 分 情况 下 用 shutil 来 拷贝 文件 和 目录 都 是 非常 直接 的 。 但 是 ,需要 注意 的 是 ， 当 考 
虑 到 文件 的 元 数据 时 ， 类 似 copy20 这 样 的 函数 只 会 尽 最 大 努力 来 保存 这 些 数据 。 一 些 
基本 信息 像 访 问 时 间 、 创 建 时 间 以 及 权限 信息 总 是 会 得 到 保存 。 但 是 属 主 、 访 问 控制 
列表 、 资 源 派 生 (resource forks ) 以 及 其 他 扩展 的 文件 元 数据 可 能 会 也 可 能 不 会 得 到 保 
存 , 这 取决 于 操作 系统 底层 和 用 户 自身 的 访问 权限 ,你 很 可 能 不 会 想 去 用 shutil.copytreeO 
这 样 的 函数 来 做 系统 备份 。 

当 和 文件 名 打交道 时 , 确保 使 用 的 是 os.path 中 的 函数 , 这 样 可 获得 最 佳 的 可 移植 性 ( 尤 
其 是 如 果 需 要 同时 运行 于 UNIX 和 Windows 上 时 )。 例 如 ; 
























































>>> filename = '/Users/guido/programs/spam.py' 
>>> import os.path 
>>> os.path.basename (filename) 


"spam.py' 
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>>> os.path.dirname (filename) 

'/Users/guido/programs' 

>>> os.path.split (filename) 

('/Users/guido/programs', 'spam.py') 

>>> os.path.join('/new/dir', os.path.basename (filename) ) 
'/new/dir/spam.py' 





>>> os.path.expanduser ('~/guido/programs/spam.py') 
'/Users/guido/programs/spam.py' 
>>> 





用 copytreeQ KH N HRT, “PS RRT TET EE, EA, EH N EP 
函数 可 能 会 遇 到 已 经 损坏 的 符号 链接 ， 或 者 由 于 权限 问题 导致 有 些 文件 无 法 访问 等 等 
诸如 此 类 的 问题 。 为 了 应 对 这 些 情况 ， 所 有 直到 的 异常 都 会 收集 到 一 个 列表 中 并 将 其 
归 组 为 一 个 单独 的 异常 ， 在 操作 结束 时 抛 出 。 示 例如 下 : 


try: 











shutil.copytree(src, dst) 
except shutil.Error as e: 
for src, dst, msg in e.args[0]: 
# src is source name 
# dst is destination name 
# msg is error message from exception 
print (dst, src, msg) 





如 果 提 供 了 关键 字 参 数 ijgnore_ dangling sumlinks=True, 那么 copytree0 将 会 忽略 悬垂 的 
符号 链接 。 


本 节 中 展示 的 函数 可 能 是 最 常 使 用 的 了 。 但 是 ，shutil 模块 中 还 有 许多 有 关 拷 贝 数据 的 操 
TE. 进一步 阅读 相关 的 文档 肯定 是 值得 的 , 参见 http://docs.python.org/3/library/shutil.html。 























13.8 ”创建 和 解 包 归档 文件 


13.8.1 问题 
我 们 需要 以 常见 的 格式 ( 如 .tar、.tgz 或 .zip ) 来 创建 或 解 包 归档 文件 。 


13.8.2 ”解决 方案 


shutil 模块 中 有 两 个 函数 一 一 make _archive()#ll unpack_archive()， 它 们 正 是 我 们 所 需要 
的 。 示 例如 下 : 
>>> import shutil 


>>> shutil.unpack archive('Python-3.3.0.tgz') 
>>> shutil.make_archive('py33','zip', 'Python-3.3.0') 
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'/Users/beazley/Downloads/py33.zip' 
>>> 


make archive() 的 第 二 个 参数 就 是 所 期 望 的 输出 格式 。 要 获取 所 支持 的 归档 格式 列表 ， 
可 以 使 用 get_archive formats( 〇 函数 。 示 例如 下 : 























>>> shutil.get_archive_formats () 
[("bztar', "bzip2'ed tar-file") 


, ('gztar', "gzip'ed tar-file"), 
('tar', ‘uncompressed tar file'), ('zip', 'ZIP file') 


>>> 


13.8.3 讨论 

Python 中 还 有 其 他 模块 可 用 来 处 理 各 种 归档 格式 的 底层 细节 ( 例如 tarfile zipfile, gzip, 
bz2 等 )。 但 是 ， 如 果 想 做 的 只 是 创建 或 解 包 归档 文件 ， 那 么 确实 没有 必要 使 用 如 此 底 
层 的 模块 。 可 以 直接 使 用 shutil 模块 中 的 高 层 函 数 来 解决 。 

这 些 函 数 有 着 许多 额外 的 选项 ,可 用 于 记录 日 志 、 文 件 权限 等 。 可 参阅 shutil 模块 的 文 
档 以 获得 更 多 的 细节 。 




















13.9 通过 名 称 来 查找 文件 


13.9.1 问题 


我 们 需要 编写 一 个 涉及 查找 文件 的 脚本 ， 比 如 给 文件 重 命名 或 者 日 志 归 档 程序 。 但 是 
我 们 不 想 在 Python 脚本 中 调用 shell 实用 程序 ， 也 不 想 提供 特定 的 行为 使 得 程序 无 法 轻 
易 地 分 发 出 去 使 用 。 


13.9.2 ”解决 方案 
搜索 文件 可 使 用 os.walkO 函 数 ， 只 要 将 顶层 目录 提供 给 它 即 可 。 下 面 示例 中 给 出 的 函 
数 用 来 查找 一 个 特定 的 文件 名 ， 并 将 所 有 匹配 结果 的 绝对 路 径 打印 出 来 : 


#!/usr/bin/env python3.3 
import os 
























































def findfile(start, name): 
for relpath, dirs, files in os.walk (start): 
if name in files: 
full_path = os.path.join(start, relpath, name) 
print (os.path.normpath(os.path.abspath (full_path) ) ) 


if name == ' main ' 





findfile(sys.argv[1], sys.argv[2]) 
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将 这 个 脚本 保存 为 findfilepy 并 从 命令 行 运行 ， 给 定 查找 的 起 始点 以 及 待 匹配 的 文件 
名 ， 就 像 下 面 这 样 : 


bash % ./findfile.py . myfile.txt 





13.9.3 讨论 

os.walk() 方 法 会 为 我 们 遍历 目录 层级 ， 且 对 于 进入 的 每 个 目录 它 都 会 返回 一 个 3 元 组 。 
这 包含 了 正在 检视 的 目录 的 相对 路 径 、 该 目录 中 包含 的 所 有 目录 名 的 列表 ， 以 及 该 目 
录 中 包含 的 所 有 文件 名 的 列表 。 

对 于 每 个 元 组 ， 只 需 检 查 目 标 文 件 是 否 在 fle 列表 中 即 可 。 如 果 是 , 就 用 os.pathjoin0 来 组 
成 一 个 路 径 。 为 了 避免 出 现 可 能 像 ././foo//bar 这 样 的 诡异 路 径 ， 还 要 用 到 两 个 额外 的 函 
数 来 修正 结果 。 第 一 个 是 os.path.abspathO0 ， 它 接受 一 个 可 能 是 相对 的 路 径 并 将 其 组 成 
绝对 路 径 形 式 。 第 二 个 是 os.path.normpathO0 ， 它 会 将 路 径 修正 为 标准 化 形式 ， 从 而 帮助 
解决 像 双 反 斜 线 、 多 当前 目录 的 多 次 引用 等 问题 。 

尽管 这 个 脚本 同 UNIX 平台 上 的 find 实用 程序 相 比 显得 异常 简单 ， 但 它 具 有 跨 平台 的 
优势 。 此 外 ， 许 多 额外 的 功能 都 能 够 以 可 移植 的 方式 加 入 进来 而 无 需 耗费 太 多 精力 。 
为 了 说 明 这 一 点 ， 下 面 这 个 函数 可 打印 出 所 有 最 近 有 修改 过 的 文件 : 


#!/usr/bin/env python3.3 





















































import os 
import time 


def modified_within(top, seconds): 
now = time.time() 
for path, dirs, files in os.walk(top): 
for name in files: 
fullpath = os.path.join(path, name) 
if os.path.exists(fullpath) : 
mtime = os.path.getmtime (fullpath) 
if mtime > (now - seconds): 
print (fullpath) 


if name == ' main ': 





import sys 

if len(sys.argv) != 3: 
print ('Usage: {} dir seconds'.format (sys.argv[0])) 
raise SystemExit (1) 


modified_within(sys.argv[1], float (sys.argv[2])) 
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在 这 个 短小 的 函数 之 上 构建 更 加 复杂 的 操作 并 不 会 花费 太 多 时 间 ,只 要 使 用 os ,os.path、 


glob 以 及 类 似 模块 中 的 各 种 功能 即 可 。 相 关 章 节 可 参阅 5.11 节 和 5.13 节 。 


13.10 ” 读 取 配置 文件 


13.10.1 问题 
我 们 想 要 读 取 以 常见 的 .ini 格式 所 编写 的 配置 文件 。 


13.10.2 ”解决 方案 


























可 以 用 configparser 模块 来 读 取 配置 文件 。 例 如 ,假设 有 一 个 这 样 的 配置 文件 : 


; config.ini 


; Sample configuration file 


[installation] 

library=% (prefix) s/lib 
include=% (prefix) s/include 
bin=% (prefix) s/bin 
prefix=/usr/local 


# Setting related to debug configuration 
[debug] 

log_errors=true 

show_warnings=False 


[server] 

port: 8080 

nworkers: 32 
pid-file=/tmp/spam.pid 
root=/www/root 


signature: 


下 面 的 示例 告诉 我 们 如 何 读 取 这 个 配置 文件 并 提取 出 相应 的 值 : 


>>> from configparser import ConfigParser 





>>> cfg = ConfigParser () 

>>> cfg.read('config.ini') 
['config.ini'] 

>>> cfg.sections () 

['installation', 'debug', 'server'] 
>>> cfg.get ('installation','library') 
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'/usr/local/lib' 

>>> cfg.getboolean('debug', 'log_errors') 
True 

>>> cfg.getint ('server', 'port') 

8080 

>>> cfg.getint ('server', 'nworkers') 

32 

>>> print (cfg.get ('server', 'signature') ) 


如 果 需 要 ， 也 可 以 使 用 cfg.write0 方 法 修改 配置 并 写 回 到 原文 件 中 。 示 例如 下 : 


>>> cfg.set('server','port','9000') 








>>> cfg.set ('debug', 'log_errors', 'False') 
>>> import sys 

>>> cfg.write(sys.stdout) 

{installation] 

library = %(prefix)s/lib 

include = %(prefix)s/include 
bin = %(prefix)s/bin 

prefix = /usr/local 


[debug] 
log_errors = False 


show_warnings = False 


[server] 

port = 9000 

nworkers = 32 

pid-file = /tmp/spam.pid 
root = /www/root 


signature = 


>>> 


13.10.3 “讨论 


配置 文件 以 易于 人 类 阅读 的 格式 对 程序 设 定 配置 数据 。 在 每 个 配置 文件 中 ， 值 被 归 组 
到 不 同 的 区 段 中 (例如 本 例 中 的 “installation”、“debug” 和 “server” )， 然 后 在 每 个 区 段 中 
对 各 个 变量 设 定 值 。 
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在 配置 文件 和 使 用 Python 来 编写 的 用 于 同样 目的 的 源 文 件 之 间 有 着 几 个 显著 的 
区 别 。 首 先 ， 前 者 的 语法 更 加 宽容 和 “草率 "。 例 如 ， 下 面 这 些 赋值 语句 的 效果 
相同 : 


prefix=/usr/loca 
prefix: /usr/local 


在 配置 文件 中 用 到 的 名 称 也 被 认为 是 非 大 小 写 敏感 的 。 例 如 : 


>>> cfg.get ('installation', 'PREFIX') 
'/usr/local' 





>>> cfg.get ('installation', 'prefix') 
'/usr/local' 
>>> 





当 解析 值 的 时 候 ， 像 getboolean0 这 样 的 方法 会 检查 任何 合理 的 值 。 例 如 ， 下 面 这 些 语 
句 的 效果 都 是 相同 的 : 


log_errors = true 








log_errors = TRUE 
log_errors = Yes 
log_errors = 1 








和 脚本 不 同 ， 也 许 在 配置 文件 和 Python 代码 之 间 最 大 的 区 别 在 于 配置 文件 不 是 按照 从 
上 到 下 的 方式 来 执行 的 。 相 反 ， 配 置 文件 会 被 全 部 读 取 。 如 果 其 中 出 现 变 量 替 换 的 操 
作 ， 则 它们 都 是 在 文件 全 部 读 取 之 后 才 进 行 的 。 比 如 说 在 如 下 部 分 中 ， 在 其 他 变量 使 
用 prefix 之 前 是 否 对 它 完成 了 赋值 是 无 关 紧 要 的 。 


[installation] 








library=% (prefix)s/lib 
include=% (prefix) s/include 
bin=% (prefix) s/bin 
prefix=/usr/local 

















关于 ConfigParser， 一 个 容易 忽视 的 特性 是 它 可 以 分 别 读 取 多 个 配置 文件 并 将 它们 的 结 
果 合并 成 一 个 单独 的 配置 。 例 如 ， 假 设 某 位 用 户 创建 了 他 们 自己 的 配置 文件 ， 看 起 来 
是 这 样 的 : 


; ~/.config.ini 

















[installation] 
prefix=/Users/beazley/test 


[debug] 
log_errors=False 





这 个 文件 可 以 单独 读 取 ， 再 同 前 面 的 配置 合并 在 一 起 。 示 例如 下 : 
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>>> # Previously read configuration 
>>> cfg.get('installation', 'prefix') 


'/usr/local' 


>>> # Merge in user-specific configuration 

>>> import os 

>>> cfg.read(os.path.expanduser('~/.config.ini')) 
['/Users/beazley/.config.ini'] 

>>> cfg.get('installation', 'prefix') 
'/Users/beazley/test' 

>>> cfg.get('installation', 'library') 
'/Users/beazley/test/lib' 

>>> cfg.getboolean('debug', 'log_errors') 





False 
>>> 








注意 观察 对 变量 prefix 的 修改 是 如 何 影响 到 其 他 相关 的 变量 的 ， 比 如 对 library 的 设 定 。 
这 么 做 行 得 通 是 因为 对 变量 的 插值 操作 是 尽 可 能 晚 才 执行 的 。 可 以 通过 下 面 的 实验 看 
出 这 一 点 : 





























>>> cfg.get ('installation','library') 
'/Users/beazley/test/lib' 
>>> cfg.set ('installation', 'prefix','/tmp/dir') 








>>> cfg.get ('installation','library') 
'/tmp/dir/lib' 
>>> 








最 后 ， 需 要 重点 提 到 的 是 Python 并 不 能 对 在 其 他 程序 中 使 用 的 .ini 文件 的 全 部 特性 都 提 
供 支持 (例如 Windows 上 的 应 用 )。 确 保 参考 configparser 的 文档 以 获得 更 详细 的 语法 
和 所 支持 特性 的 细 市 。 





13.11 给 脚本 添加 日 志 记 录 


13.11.1 问题 
我 们 想 让 脚本 和 简单 的 程序 可 以 将 诊断 信息 写 人 到 日 志文 件 中 。 


13.11.2 ”解决 方案 
给 简单 的 程序 添加 日 志 功 能 ， 最 简单 方法 就 是 使 用 logging 模块 了 。 示 例如 下 : 


import logging 











def main(): 
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if 


# Configure the logging system 

logging. basicConfig ( 
filename='app.log', 
level=logging.ERROR 


# Variables (to make the calls that follow work) 


hostname = 'www.python.org' 
item = 'spam' 

filename = 'data.csv' 

mode = 'r' 


# Example logging calls (insert into your program) 
logging.critical('Host %s unknown', hostname) 
logging.error("Couldn't find %r", item) 
logging.warning('Feature is deprecated') 


logging.info('Opening file %r, mode=%r', filename, mode) 


logging.debug('Got here') 


name == ' main ': 





main () 


这 5 个 logging 调用 (critical0 error(), warning(), info(), debug) ) 分 别 代表 着 不 同 
的 严重 级 别 ， 以 降序 排列 。basicConfig0 的 level 参数 是 一 个 过 滤器 ， 所 有 等 级 低 于 此 
设 定 的 消息 都 会 被 忽略 掉 。 
每 个 日 志 操 作 的 参数 都 是 一 条 字符 串 消息 ， 后 面 跟着 零 个 或 多 个 参数 。 当 产生 日 志 消 





























息 时 ，%% 操 作 符 使 用 提供 的 参数 来 格式 化 字符 串 消息 。 
如 果 运 行 这 个 程序 ， 文 件 app.log 的 内 容 将 会 是 这 样 的 : 

















CRITICAL:root:Host www.python.org unknown 
ERROR: root :Could not find 'spam' 


如 果 想 改变 输出 或 输出 的 严重 级 别 , 可 以 通过 修改 调用 basicConfig0 的 参数 来 实现 。 示 
例如 下 : 


logging.basicConfig ( 


filename='app.log', 
level=logging.WARNING, 
format='% (levelname) s:%(asctime) s:% (message) s') 


修改 后 输出 结果 变 成 了 下 面 这 样 : 


CRITICAL:2012-11-20 12:27:13,595:Host www.python.org unknown 
ERROR: 2012-11-20 12:27:13,595:Could not find 'spam' 
WARNING: 2012-11-20 12:27:13,595:Feature is deprecated 
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如 上 所 示 ， 日 志 的 配置 信息 被 直接 硬 编 码 到 了 程序 中 。 如 果 想 从 配置 文件 中 进行 配置 ， 
把 basicConfigO 调 用 修改 成 如 下 形式 : 


import logging 














import logging.config 


def main(): 
# Configure the logging system 
logging.config.fileConfig('logconfig.ini') 











现在 创建 一 个 配置 文件 logconfig.ini?， 看 起 来 是 这 样 的 : 
loggers] 
eys=root 
handlers] 


eys=defaultHandler 


formatters] 
eys=defaultFormatter 





ogger_root] 
evel=INFO 
handlers=defaultHandler 


qualname=root 








handler _defaultHandler] 
class=FileHandler 
formatter=defaultFormatter 


args=('app.log', 'a') 


formatter_defaultFormatter] 





format=% (levelname) s:% (name) s:% (message) s 


如 果 想 修改 配置 ， 直 接 编辑 logconfig.ini 文件 即 可 。 


13.11.3 ”讨论 

对 于 logging 模块 来 说 有 着 上 百 万 种 高 级 的 配置 选项 可 用 , 但 此 时 让 我 们 暂时 忽略 这 些 
细节 。 本 节 给 出 的 解决 方案 对 于 简单 的 程序 和 脚本 来 说 已 经 足够 用 了 。 只 要 保证 在 
调用 任何 logging 调用 之 前 先 调用 basicConfig() BI AT , 这样 你 的 程序 将 能 够 产生 日 志 
输出 。 

如 果 想 让 日 志 消息 发 送 到 标准 错误 输出 而 不 是 文件 中 ， 不 要 给 basicConfig0 提 供 任何 广 
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件 名 做 参数 即 可 。 例 如 ， 可 以 这 么 做 : 


logging. basicConfig(level=logging. INFO) 


关于 basicConfig0， 一 个 微妙 的 地 方 在 于 它 只 能 在 程序 中 调用 一 次 。 如 果 稍 后 需要 修改 日 
志 模 块 的 配置 ， 需 要 取得 根 日 志 对 象 (rootlogger ) 并 直接 对 其 做 修改 。 示 例如 下 : 


logging.getLogger().level = logging.DEBUG 
必须 要 强调 的 是 ， 本 节 只 展示 了 logging 模块 的 几 个 基本 用 法 ,还 有 相当 多 的 高 级 定制 


化 操作 可 做 。 对 于 这 样 的 定制 化 操作 ， 一 个 极 佳 的 资源 是 “Logging Cookbook” (http: 
/Idocs.python.org/3/howto/logging-cookbook.html )。 



























































13.12 给 库 添加 日 志 记 录 


13.12.1 问题 
我 们 想 给 一 个 库 添加 日 志 功 能 ,但 是 又 不 希望 它 影响 那些 没有 使 用 日 志 功 能 的 程序 。 


13.12.2 解决 方案 


对 于 想 执行 日 志 记录 的 库 来 说 ， 应 该 创建 一 个 专用 的 日 志 对 象 并 将 其 初始 化 为 如 下 
形式 : 


# somelib.py 











import logging 
log = logging.getLogger(__name_) 
log.addHandler (logging.NullHandler () ) 


# Example function (for testing) 

def func(): 
log.critical('A Critical Error!') 
log.debug('A debug message') 


有 了 这 样 的 配置 ， 默 认 情 况 下 将 不 会 产生 任何 日 志 输 出 。 例 如 : 


>>> import somelib 








>>> somelib.func() 


>>> 




















但 是 ， 如 果 日 志 系 统 得 到 适当 的 配置 ， 则 日 志 消 息 将 开始 出 现 。 示 例如 下 : 


>>> import logging 





>>> logging.basicConfig() 
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>>> somelib.func() 
CRITICAL: somelib:A Critical Error! 
>>> 


13.12.3 讨论 

库 给 日 志 带 来 了 一 个 特殊 的 问题 : 即 ， 使 用 日 志 的 环境 是 未 知 的 。 一 般 来 说 ， 绝 不 应 
该 在 库 代 码 中 尝试 去 自行 配置 日 志 系 统 ， 或 者 对 已 有 的 日 志 配 置 做 任何 假设 。 因 此 ， 
需要 小 心 履 辟 地 提供 隔离 措施 。 

getLogsger(_、name _“) 创 建 了 一 个 日 志 模 块 ， 其 名 称 同调 用 它 的 模块 名 相同 。 由 于 所 有 
的 模块 都 是 唯一 的 ， 这 人 么 做 就 创建 了 一 个 专用 的 日 志 对 象 ， 也 就 与 其 他 的 日 志 对 象 隔 
离开 了 。 
log.addHandler(logging.NullHandlerO) 操 作 绑 定 了 一 个 空 的 处 理 例 程 到 刚刚 创建 的 日 志 
对 象 上 。 上 默认 情况 下 ， 空 处 理 例 程 会 忽略 所 有 的 日 志 消 息 。 因 此 ， 如 果 用 到 了 这 个 库 
且 日 志 系 统 从 未 配置 过 ， 那 么 就 不 会 出 现任 何 日 志 消 息 或 警告 信息 。 

对 单个 库 的 日 志 记 录 可 以 独立 地 进行 配置 ， 不 必 管 其 他 的 日 志 设 定 。 例 如 ， 考 虑 如 下 
的 代码 : 


>>> import logging 













































































>>> logging.basicConfig (level=logging .ERROR) 
>>> import somelib 

>>> somelib.func() 

CRITICAL: somelib:A Critical Error! 


>>> # Change the logging level for 'somelib' only 
>>> logging.getLogger('somelib') .level=logging.DEBUG 
>>> somelib.func() 

CRITICAL:somelib:A Critical Error! 

DEBUG: somelib:A debug message 





>>> 





这 里 , 根 日 志 对 象 已 经 被 配置 为 只 输出 ERROR E 或 更 高 等 级 的 消息 。 但 是 , somelib 
库 的 日 志 等 级 已 经 被 单独 配置 为 输出 调试 消息 了 ， 这 个 设 定 的 优先 级 要 高 于 全 局 
设 定 eo} 

对 于 单个 模块 来 说 ， 能 够 像 这 样 修改 日 志 的 设 定 会 是 一 个 非常 有 用 的 调试 工具 。 因 为 
我 们 不 必 去 修改 任何 全 局 的 日 志 设 定 了 当 某 个 模块 需要 更 多 的 日 志 输 出 时 ， 只 要 
针对 这 个 模块 修改 日 志 等 级 即 可 。 

“Logging HOWTO”( http://docs.python.org/3/howto/logging.html ) 一 文中 有 关于 配置 
logging 模块 以 及 其 他 一 些 有 用 技巧 的 更 多 信息 。 
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13.13 
13.13.1 


创建 一 个 秒表 计时 器 


问题 


我 们 想 记 录 执 行 各 项 任务 所 花费 的 时 间 。 


13.13.2 


解决 方案 








time 模块 中 包含 了 各 种 与 计时 相关 的 函数 。 但 是 ， 通 常 在 这 些 函 数 之 上 构建 更 高 层 的 
接口 来 模拟 秒表 会 更 有 用 。 示 例如 下 : 
import time 
class Timer: 
def init (self, func=time.perf counter): 
self.elapsed = 0.0 
self. func = func 
self. start = None 
def start (self): 
if self. start is not None: 
raise RuntimeError('Already started') 
self. start = self. func() 
def stop(self): 
if self. start is None: 
raise RuntimeError('Not started’) 
end = self. func() 
self.elapsed += end - self. start 
self. start = None 
def reset (self): 
self.elapsed = 0.0 
@property 
def running(self): 
return self. start is not None 
def enter (self): 
self.start () 
return self 
def exit (self, *args): 
self.stop() 
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这 个 类 定义 了 一 个 定时 器 ,可 以 根据 用 户 的 需要 启动 、 停 止 和 重 置 它 。Timer 类 将 总 的 


花费 时 间 记 录 在 elapsed 属性 中 。 下 面 的 示例 展示 了 如 何 使 用 这 个 类 : 


def countdown (n): 
while n > 0: 


n-=1 


# Use 1: Explicit start/stop 
t = Timer () 

t.start () 

countdown (1000000) 

t.stop () 

print (t.elapsed) 


# Use 2: As a context manager 
with t: 

countdown (1000000) 
print (t.elapsed) 


with Timer() as t2: 
countdown (1000000) 
print (t2.elapsed) 


13.13.3 ”讨论 





本 节 提 供 了 一 个 简单 但 非常 有 用 的 类 ， 可 用 来 进行 计时 和 跟踪 花费 的 时 间 。 这 个 类 也 











很 好 地 演示 了 如 何 支 持 上 下 文 管理 协议 以 及 对 with 语句 的 使 用 。 








在 进行 计时 测量 时 需要 考虑 底层 所 用 到 的 时 间 函 数 。 一 般 来 说 ， 像 time.time0 或 者 
time.clock0 的 计时 精度 根据 操作 系统 的 不 同 而 有 所 区 别 。 相 反 ，time.perf_counter(0) 函 数 


总 是 会 使 用 系统 中 精度 最 高 的 计时 器 。 























如 同 前 面 所 展示 的 ， 由 Timer 类 记录 的 时 间 是 系统 时 钟 时 间 ， 其 中 包含 了 所 有 的 休眠 期 
时 间 。 如 果 只 想 获取 进程 的 CPU 时间， 可 以 用 time.process_time(O) 了 取代。 示例 如 下 : 








t = Timer (time.process time) 
with t: 

countdown (1000000) 
print (t.elapsed) 


time.perf_counter() 和 和 time.process_time() 都 返回 秒 级 的 时 间 值 ( 以 浮 点 





数 表示 )。 但 是 单 
日 函数 两 次 并 计算 








独 这 样 一 个 时 间 值 没有 任何 意义 ,要 使 得 结果 变 得 有 意义 ， 必 须 调 月 
两 次 时 间 的 差 。 
有 关 计 时 和 性 能 统计 分 析 的 更 多 主题 请 参阅 14.13 W, 
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13.14 给 内 存 和 CPU 使 用 量 设 定 限 制 
13.14.1 问题 


我 们 想 对 运行 在 UNIX 系统 上 的 程序 在 内 存 和 CPU 的 使 用 量 上 设 定 一 些 限制 。 





13.14.2 解决 方案 





resource 模块 可 用 来 执行 这 样 的 任务 。 例 如 ， 要 限制 CPU 时 间 可 以 这 样 做 : 


import signal 
import resource 
import os 


def time_exceeded(signo, frame): 
print ("Time's up!") 
raise SystemExit (1) 


def set max runtime(seconds): 
# Install the signal handler and set a resource limit 
soft, hard = resource.getrlimit (resource.RLIMIT_CPU) 
resource.setrlimit (resource.RLIMIT CPU, (seconds, hard) ) 
signal.signal(signal.SIGXCPU, time_exceeded) 


if name == ' main ': 





set_max runtime (15) 
while True: 


pass 


运行 上 述 代 码 ， 当 超时 时 会 产生 SIGXCPU 信号。 程序 就 会 做 清理 工作 然后 退出 。 
要 限制 内 存 的 使 用 ， 可 以 在 使 用 的 总 地 址 空间 上 设 定 一 个 限制 。 示 例如 下 : 








import resource 


def limit memory (maxsize): 
soft, hard = resource.getrlimit (resource.RLIMIT AS) 
resource.setrlimit (resource.RLIMIT AS, (maxsize, hard)) 


当 设 定 了 内 存 限制 后 ， 如 果 没 有 更 多 的 内 存 可 用 ， 程 序 就 会 开始 产生 MemoryError 异常 。 


13.14.3 ”讨论 
在 本 节 中 ， 我 们 通过 setrlimitO 函 数 来 为 特定 的 资源 设 定 软 性 和 硬性 限 











判 。 软 性 限制 就 




















是 一 个 值 ， 一 般 来 说 操作 系统 会 通过 信号 机 制 来 限制 或 通知 进程 。 硬 性 限制 代表 着 软 
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性 限制 值 的 上 限 。 通 常 ， 这 些 值 是 由 系统 全 局 参数 所 控制 的 ， 它 们 会 由 系统 管理 员 来 
设 定 。 虽 然 可 以 降低 硬性 限制 ， 但 这 个 过 程 不 能 由 用 户 进 程 来 控制 ( 就 算 这 个 进程 要 
降低 自己 的 硬性 限制 也 不 行 )。 

setrlimitO 函数 还 可 以 用 来 设 定 比如 子 进 程 数 量 、 可 打开 的 文件 数量 等 系统 资源 。 可 以 
参阅 resource 模块 的 文档 以 获得 进一步 的 细节 。 

请 注意 ， 本 节 中 的 技术 只 能 用 于 UNIX 系统 ， 而 且 可 能 并 不 适用 于 所 有 的 UNIX 变种 。 
例如 ， 当 我 们 进行 测试 时 发 现在 Linux 上 可 以 正常 工作 但 在 OS X 上 就 不 行 。 
































13.15 Wm Web 浏览 器 


13.15.1 问题 
我 们 想 从 脚本 中 加 载 一 个 浏览 器 并 让 它 打 开 指定 的 URL. 


13.15.2 ”解决 方案 

webbrowser 模块 可 用 来 以 独立 于 平台 的 方式 加 载 浏览 器 。 示 例如 下 : 
>>> import webbrowser 
>>> webbrowser.open('http://www.python.org') 


True 
>>> 





这 会 用 默认 的 浏览 器 打开 请 求 的 页 面 。 如 果 想 对 页 面 打 开 的 方式 有 更 多 的 控制 ， 可 以 
使 用 下 列 函 数 之 一 : 


>>> # Open the page in a new browser window 





>>> webbrowser.open_new('http://www.python.org') 
True 
>>> 


>>> # Open the page in a new browser tab 

>>> webbrowser.open_new_tab('http://www.python.org') 
True 

>>> 


UMRA be tit SCRATCHES ETT AD a Bat BN EFT IP A 


如 果 想 在 特定 的 浏览 器 中 打开 页 面 ， 可 以 使 用 webbrowser.getO 函 数 来 指定 一 个 具体 的 
浏览 器 。 示 例如 下 : 


>>> c = webbrowser.get ('firefox') 








>>> c.open('http://www.python.org') 
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True 
>>> c.open_new_tab('http://docs.python.org') 
True 
>>> 





支持 的 浏览 器 名 称 的 完整 列表 可 以 在 Python 文档 ( http://docs.python.org/3/library/ 
webbrowser.html ) 中 找到 。 


13.15.3 讨论 

在 许多 脚本 中 ， 能 够 轻松 加 载 一 个 浏览 器 可 算是 一 项 有 用 的 操作 。 例 如 ， 也 许 脚 本 执 
行 了 某 种 服务 器 部 署 的 任务 ， 而 我 们 想 马 上 加 载 浏览 器 来 验证 这 是 否 能 够 工作 。 或 者 
某 个 程序 把 数据 以 HTML 页 面 的 形式 输出 ， 而 我 们 只 想 打 开 浏 览 器 查看 结果 。 无 论 怎 
样 ，webbrowser 模块 都 是 一 种 简单 的 解决 方案 。 
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测试 是 很 棒 的 一 件 事 ， 但 调试 就 没 那么 有 趣 了 吧 。 在 Python 解释 器 执行 代码 之 前 并 没 
有 编译 顺 来 分 析 你 的 代码 ， 这 一 事实 使 得 测试 成 为 了 开发 中 至 关 重 要 的 部 分 。 本 音 的 
目的 是 讨论 一 些 与 测试 、 调 试 以 及 异常 处 理 相关 的 常见 问题 。 本 章 不 是 为 测试 驱动 开 
发 (TDD ) 或 者 unittest 模块 做 简要 的 介绍 。 因 此 ， 我 们 假设 读者 已 经 对 软件 测试 方面 
的 一 些 概念 有 所 了 解 。 



































14.1 测试 发 送 到 stdout 上 的 输出 


14.1.1 问题 

我 们 的 程序 中 有 一 个 方法 会 将 输出 发 送 到 标准 输出 上 (sys.stdout )。 这 几乎 总 是 表示 它 
会 把 文本 发 送 到 屏幕 上 。 我 们 想 为 自己 的 代码 编写 一 个 测试 用 例 ， 以 此 证 明 只 要 给 定 
合适 的 输入 ， 则 会 在 屏幕 上 显示 合适 的 输出 。 

14.1.2 解决 方案 


利用 unittestmock 模块 的 patch0 艺 数 ， 很 容易 为 单独 的 测试 用 例 模拟 出 sys.stdout。 用 
完 后 可 将 其 放 回 ， 不 必 使 用 临时 变量 或 者 在 测试 用 例 之 间 暴 露出 模拟 的 状态 。 


考虑 下 面 这 个 位 于 mymodule 模块 中 的 函数 : 


# mymodule.py 


























def urlprint (protocol, host, domain): 
url = '{}://{}.{}'.format (protocol, host, domain) 
print (url) 


内 建 的 print 函数 默认 情况 下 会 把 输出 发 往 sys.stdout。 为 了 测试 输出 确实 会 发 往 
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sys.stdout， 可 以 利用 一 个 对 象 作为 sys.stdout 的 替身 来 模拟 这 种 情况 ， 然 后 对 产生 的 结 
做 断言 处 理 。 利 用 unittest.mock 模块 的 patch0 方 法 能 够 非常 方便 地 替换 对 象 ， 而 且 
只 在 运行 的 测试 用 例 的 上 下 文中 生效 。 在 测试 完成 后 ， 会 立刻 将 所 有 的 东西 返回 到 它 
们 的 原始 状态 上 。 下 面 就 是 针对 mymodule 的 测试 代码 : 


from io import StringIO 

















Ya 








from unittest import TestCase 
from unittest.mock import patch 


import mymodule 


class TestURLPrint (TestCase) : 
def test_url_gets_to_stdout (self): 
protocol = 'http' 
host = 'www' 
domain = 'example.com' 


expected_url = '{}://{}.{}\n'.format (protocol, host, domain) 


with patch('sys.stdout', new=StringI0()) as fake_out: 
mymodule.urlprint (protocol, host, domain) 
self.assertEqual (fake_out.getvalue(), expected_url) 


14.1.3 Wit 

urlprintO 函 数 接受 三 个 参数 ， 测 试 代码 首先 为 每 个 参数 设 定 一 个 旺 值 (dummy value )。 
变量 expected_url 被 设 定 为 包含 期 望 输出 的 字符 串 。 
要 运行 这 个 测试 用 例 ，unittestmock.patchO 函 数 用 来 当做 上 下 文 管理 器 ， 把 sys.stdout 
的 值 替 换 为 一 个 StringIO 对 象 。 在 这 个 过 程 中 会 创建 一 个 模拟 对 象 ， 即 fake_out 变量 。 
可 以 在 with 语句 块 中 使 用 fake out 来 执行 各 种 检查 。 当 with 语句 块 执行 完毕 后 ，patch0 
函数 会 非常 方便 地 将 所 有 状态 还 原 为 测试 运行 之 前 时 的 状态 。 

值得 一 提 的 是 , 某 些 特定 的 C 扩展 模块 可 能 会 通过 设 定 sys.stdout 直接 往 标准 输出 写 数 
据 。 本 节 不 针对 这 种 情况 做 特别 说 明 ， 但 对 于 纯 Python 代码 来 说 应 该 是 能 正常 工作 的 
( 如 果 需 要 从 这 种 C 扩展 模块 中 捕获 IO， 可 以 打开 一 个 临时 文件 ， 然 后 让 标准 输出 临 
时 重 定向 到 那个 文件 来 完成 。 这 中 间 涉 及 各 种 操作 文件 描述 符 的 技巧 )。 


有 关 在 字符 串 和 StringIO 对 象 中 捕获 IO 的 更 多 信息 可 参见 5.6 节 。 


14.2 ”在 单元 测试 中 为 对 象 打 补 丁 


14.2.1 问题 
我 们 正在 编写 单元 测试 ， 需 要 对 选 定 的 对 象 添加 补丁 ， 以 此 才能 在 测试 中 针对 它们 的 
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使 用 情况 做 断言 处 理 (例如, 对 特定 的 调用 参数 做 断言 、 访 问 选 定 的 属性 时 做 断言 等 )。 


14.22 ”解决 方案 


unittest.mock.patch() 孙 数 可 用 来 帮助 解决 这 个 问题 。 虽然 不 太 常 见 , 但 patch0 函 数 用 法 
较 多 ， 可 当做 装饰 器 、 上 下 文 管理 器 或 者 单独 使 用 。 例 如 ， 在 下 面 的 示例 中 我 们 把 它 
当做 装饰 器 来 用 : 


from unittest .mock import patch 











import example 


@patch ('example.func') 

def testl (x, mock func): 
example. func (x) # Uses patched example.func 
mock func.assert_ called with (x) 


也 可 以 把 它 当 做 上 下 文 管理 需 来 用 : 


with patch('example.func') as mock func: 





example. func (x) # Uses patched example.func 
mock func.assert_ called with (x) 


最 后 但 同样 重要 的 是 ， 也 可 以 用 它 来 手动 打 补丁 : 


p = patch('example.func') 


























mock_func = p.start () 
example. func (x) 

mock func.assert_ called with (x) 
p.stop () 


如 果 有 必要 的 话 ， 可 以 将 装饰 器 和 上 下 文 管理 器 堆 释 起 来 对 多 个 对 象 打 补 丁 。 示 例如 下 : 


@patch ('example.funcl') 
@patch ('example.func2') 
@patch ('example.func3') 
def testl (mockl, mock2, mock3): 


def test2(): 
with patch('example.patch1') as mockl, \ 
patch('example.patch2') as mock2, \ 
patch('example.patch3') as mock3: 


14.2.3 Ji 
patch0 接 受 一 个 已 有 对 象 的 完全 限定 名 称 并 将 其 替换 为 一 个 新 值 。 在 装饰 器 函数 或 者 上 
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mal 








>>> x = 42 
>>> with patch(' main .x'): 
print (x) 


<MagicMock name='x' id='4314230032'> 
>>> x 

42 

>>> 

















MagicMock 实例 一 | 
用 信息 而 且 人 允许 创建 断言 。 示 例如 下 : 


>>> X 

42 

>>> with patch(' main .x', 'patched_value'): 
print (x) 


patched_value 
>>> x 

42 

>>> 














>>> from unittest.mock import MagicMock 
>>> m = MagicMock (return value = 10) 
>>> m(1, 2, debug=True) 
10 
>>> m.assert_called_with(1, 2, debug=True) 
>>> m.assert called with(1, 2) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File ".../unittest/mock.py", line 726, in assert_called with 
raise AssertionError (msg) 
AssertionError: Expected call: mock (1, 2) 
Actual call: mock(1, 2, debug=True) 
>>> 


>>> m.upper.return_value = 'HELLO' 
>>> m.upper ('hello') 

'HELLO' 

>>> assert m.upper.called 


TERMITE RKN KR IE REEL. RART, RZE RA 
MagicMock 实例 。 示 例如 下 : 


但 是 ， 实 际 上 可 以 将 对 象 蔡 换 为 任何 你 希望 的 值 ， 只 要 将 值 作为 patch0 的 第 二 个 参数 
传人 即 可 : 


役 被 当 作 蔡 换 值 来 用 ， 旨 在 模仿 可 调用 对 象 和 实例 。 它 们 会 记录 使 
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>>> m.split.return_value = ['hello', 'world'] 
>>> m.split (‘hello world') 

['hello', 'world'] 

>>> m.split.assert_called_with('hello world’) 
>>> 





>>> m['blah'] 

<MagicMock name='mock. getitem ()' id='4314412048'> 
>>> m.__getitem_.called 

True 

>>> m.__getitem_.assert_called_with('blah') 

>>> 


一 般 来 说 ， 这 类 操作 都 是 在 单元 测试 中 进行 的 。 例 如 ， 假 设 有 如 下 的 函数 : 


# example.py 
from urllib.request import urlopen 


import csv 


def dowprices(): 
u = urlopen('http://finance.yahoo.com/d/quotes.csv?s=@*DJI&f=s11') 
lines = (line.decode('utf-8') for line in u) 
rows = (row for row in csv.reader(lines) if len(row) == 2) 
prices = { name:float (price) for name, price in rows } 
return prices 





通常 ， 这 个 函数 会 使 用 urlopen0 从 Web 上 抓 取 一 些 数据 然后 进行 解析 。 要 对 这 个 函数 
做 单元 测试 ， 我 们 可 能 会 想 自 己 创 建 一 份 更 加 可 预测 的 数据 集 ， 然 后 将 其 作为 函数 的 
测试 数据 。 下 面 的 示例 采用 了 前 文 讨 论 过 的 补丁 技术 : 


import unittest 





from unittest.mock import patch 
import io 


import example 


sample data = io.BytesI0(b'''\ 
"IBM", 91.1\r 

"AA", 13.25\r 

"MSFT",27.72\r 

\r 

Mee) 


class Tests (unittest.TestCase) : 
@patch('example.urlopen', return_value=sample_ data) 
def test_dowprices(self, mock_urlopen): 
p = example.dowprices () 
self.assertTrue (mock_urlopen.called) 
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self.assertEqual (p, 
{'IBM': 91.1, 
"AA': 13.25, 
"MSFT' : 27.72}) 


if name == ' main_' 





unittest .main () 


在 这 个 示例 中 ，example 模块 中 的 urlopen0 函 数 被 替换 成 了 一 个 mock 对 象 ， 返 回 的 
BytesIO0 中 就 包含 着 作为 奉 代 的 样 例 数据 。 

关于 这 个 测试 ， 一 个 重要 但 微妙 的 地 方 在 于 我 们 是 对 example.urlopen 打 补 丁 而 不 是 针 
对 urllib.request.urlopen。 在 打 补 丁 时 , 使 用 的 名 称 必 须 和 被 测 代码 中 使 用 的 名 称 保 持 一 
致 。 由 于 示例 代码 使 用 的 是 from urllib.request import urlopen， 因 此 实际 上 由 函数 
dowpricesO 调 用 的 urlopen0 其 实 是 位 于 example 模块 中 的 。 

本 节 仅 仅 只 是 小 小 体验 了 一 下 unittest.mock 模块 的 功能 。 要 使 用 更 加 高 级 的 功能 和 特 
性 ， 官 方 文档 Chttp://docs.python.org/3/library/unittest.mock ) 是 必 读 的 资料 。 






























































14.3 ”在 单元 测试 中 检测 异常 情况 
14.3.1 问题 
我 们 想 编写 一 个 能 够 快速 检测 异常 的 单元 测试 。 


14.3.2 解决 方案 


检测 异常 可 使 用 assertRaise() 方 法 。 例 如 ， 如 果 想 检查 某 个 函数 是 否 引发 了 ValueError 异 
常 ， 可 以 使 用 下 面 的 代码 完成 : 


import unittest 





























# A simple function to illustrate 
def parse _int(s): 
return int(s) 


class TestConversion (unittest .TestCase) : 
def test bad int (self): 
self.assertRaises(ValueError, parse_int, 'N/A') 


如 果 需 要 以 某 种 方式 检查 异常 的 值 ， 那 就 需要 用 到 另 一 种 不 同 的 方法 。 示 例如 下 : 


import errno 








class TestIO(unittest.TestCase) : 
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def test file not found(self): 
try: 
f = open('/file/not/found') 
except I0Error as e: 
self.assertEqual(e.errno, errno. ENOENT) 
else: 
self.fail('IOError not raised') 


14.3.3 ”讨论 
assertRaise0) 方 法 提供 了 一 种 简便 的 方式 来 测试 是 否 有 异常 出 现 。 编 写 测试 代码 时 ， 一 
个 常见 的 误区 就 是 自己 手工 尝试 用 try 和 except 来 处 理 异常 。 比 如 : 

class TestConversion (unittest.TestCase) : 


def test bad int (self): 
try: 




















r = parse_int('N/A') 
except ValueError as e: 
self.assertEqual (type (e), ValueError) 





这 种 方法 的 问题 在 于 容易 忘记 边界 情况 ， 比 如 当 根 本 没有 异常 产生 时 。 为 了 应 对 这 点 ， 
需要 为 这 种 情况 添加 一 个 检查 ， 示 例如 下 : 
class TestConversion (unittest.TestCase) : 


def test bad int (self): 
try: 





r = parse_int('N/A') 
except ValueError as e: 

self.assertEqual (type(e), ValueError) 
else: 

self.fail('ValueError not raised') 


assertRaises() 方 法 则 替 我 们 处 理 了 所 有 这 些 细 节 ， 所 以 应 该 尽量 多 使 用 它 。 


assertRaisesO 的 局 限 性 在 于 对 于 所 产生 的 异常 对 象 的 值 ， 并 不 提供 测试 方法 。 要 实现 这 
一 目的 ， 必 须 像 上 面 的 示例 那样 手动 进行 测试 。 在 这 两 种 极端 情况 之 间 ， 可 能 会 考虑 
使 用 assertRaisesRegex() 方 法 。 该 方法 允许 我 们 在 测试 异常 的 同时 还 可 以 针对 异常 的 字 
符 串 表示 进行 正则 表达 式 匹 配 。 示 例如 下 : 

class TestConversion (unittest.TestCase) : 


def test bad int (self): 
self.assertRaisesRegex (ValueError, 'invalid literal .*', 








parse_int, 'N/A') 


关于 assertRaises() 和 assertRaisesRegex0O 还 有 一 个 鲜 为 人 知 的 事实 ， 即 ， 它 们 也 可 以 当 
做 上 下 文 管理 器 来 使 用 : 
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class TestConversion (unittest .TestCase) : 
def test bad int (self): 
with self.assertRaisesRegex(ValueError, ‘invalid literal .*'): 


r = parse _int('N/A') 


如 果 我 们 的 测试 除了 要 执行 一 个 可 调用 对 象 之 外 还 涉及 多 个 步骤 ,那么 上 下 文 管理 需 
的 形式 就 很 有 用 了 。 














14.4 ”将 测试 结果 作为 日 志 记录 到 文件 中 


14.4.1 问题 
我 们 想 把 单元 测试 的 结果 写 人 到 文件 中 ， 而 不 是 打印 到 标准 输出 上 。 


14.4.2 ”解决 方案 
运行 单元 测试 的 一 种 非常 常用 的 技术 就 是 在 测试 文件 底部 包含 下 列 代码 ; 


import unittest 

















class MyTest (unittest.TestCase) : 


if name == ' main ': 





unittest .main () 


这 么 做 会 让 测试 文件 变 为 可 执行 文件 ， 而 且 会 把 测试 结果 打印 到 标准 输出 上 。 如 果 想 对 
输出 做 重 定向 ， 需 要 将 原来 的 main0 展 开 ， 然 后 编写 自己 的 main0 函 数 。 示 例如 下 : 






































import sys 

def main(out=sys.stderr, verbosity=2): 
loader = unittest.TestLoader () 
suite = loader. loadTestsFromModule(sys.modules[_name_]) 
unittest .TextTestRunner (out, verbosity=verbosity) .run (suite) 


if name == ' main ': 





with open('testing.out', 'w') as f: 


main (f) 


14.4.3 ”讨论 
本 节 中 有 趣 的 地 方 不 在 于 将 测试 结果 重 定向 到 文件 中 ， 而 是 当 这 么 做 的 时 候 暴 露 了 
unittest 模块 内 部 值得 注意 的 一 些 工 作 原 理 。 


从 基本 的 层次 来 说 ，unittest 模块 首先 会 组 装 一 个 测试 套件 。 这 个 测试 套件 中 包含 了 各 
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种 定义 的 测试 方法 。 一 旦 套件 装配 完成 ， 它 所 包含 的 测试 就 开始 执行 。 

单元 测试 的 这 两 个 部 分 是 彼此 相 分 离 的 。 解 决 方案 中 创建 的 unittest.TestLoader 实例 是 
用 来 组 装 测试 套件 的 。 而 loadTestsFromModule()#z TestLoader 的 几 个 实例 方法 之 一 ， 

用 来 收集 测试 。 在 这 种 情况 下 ， 它 会 为 TestCase 类 扫描 模块 ， 并 从 模块 中 提取 出 测试 
方法 。 如 果 想 获得 更 细 粒 度 的 控制 , 可 以 用 1loadTestsFromTestCase(0) 方 法 (本 节 未 给 出 ) 
从 继承 自 TestCase 的 子 类 中 提取 测试 方法 。 

TextTestRunner 类 是 一 个 测试 运行 类 的 例子 。 该 类 的 主要 目的 就 是 运行 包含 在 测试 套件 
中 的 测试 。 这 个 类 也 是 unittest.main0 函 数 所 使 用 的 测试 运行 类 。 但 是 ， 这 里 我 们 还 对 
它 做 了 一 点 底层 配置 ， 包 括 设置 输出 文件 和 输出 信息 的 详细 程度 。 

尽管 本 节 中 只 包含 了 几 行 代码 ， 但 对 于 读者 今后 应 该 如 何 定制 化 unittest 框架 带 来 了 一 
些 启示 。 要 定制 化 测试 套件 的 装配 过 程 ， 可 以 利用 TestLoader 类 的 各 种 操作 来 完成 。 

要 定制 化 测试 的 执行 , 可 以 创建 自 定 义 的 测试 运行 类 , 以 此 模拟 出 TextTestRunner 类 的 
功能 。 这 些 主题 都 超出 了 本 节 可 以 涵盖 的 范围 。 但 是 ，unittest 模块 的 文档 中 对 这 些 底 
层 的 协议 有 着 详尽 的 说 明 。 
























































14.5” 跳 过 测试 ， 或 者 预计 测试 结果 为 失败 


14.5.1 问题 
我 们 想 在 自己 的 单元 测试 中 跳 过 某 些 测 试 ， 或 者 选择 几 个 测试 将 它们 标记 为 预测 会 失败 。 
14.5.2 ”解决 方案 


unittest 模块 中 有 一 些 装饰 器 可 作用 于 所 选 的 测试 方法 上 ， 以 此 控制 它们 的 处 理 行为 。 
示例 如 下 : 


import unittest 





import os 
import platform 


class Tests (unittest.TestCase): 
def test 0(self): 
self.assertTrue (True) 


@unittest.skip('skipped test') 
def test _1(self): 
self.fail('should have failed!') 


@unittest.skipIf(os.name=='posix', 'Not supported on Unix') 
def test _2(self): 
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import winreg 


@unittest.skipUnless(platform.system() == 'Darwin', 'Mac specific test') 
def test _3(self): 
self.assertTrue (True) 


@unittest.expectedFailure 
def test _4(self): 
self.assertEqual(2+2, 5) 


if _name == Main_': 





unittest.main () 
如 果 在 一 台 Mac 电脑 上 运行 上 述 代码 ， 将 得 到 如 下 输出 : 


bash % python3 testsample.py -v 


test_0 (_main_.Tests) ... ok 

test 1 (_main_.Tests) . skipped 'skipped test' 

test_2 (_main_.Tests) . skipped 'Not supported on Unix' 
test_3 (_main_.Tests) ... ok 

test_4 (_main_.Tests) . expected failure 


Ran 5 tests in 0.002s 


OK (skipped=2, expected failures=1) 


14.5.3 ”讨论 

装饰 需 skipO 可 用 来 跳 过 某 个 根本 就 不 想 运 行 的 测试 。skipIfO 和 skipUnlessO 在 编写 那些 
只 针对 特定 平台 或 Python 版 本 甚至 其 他 依赖 的 测试 时 非常 有 用 。 对 于 已 知 会 失败 的 测 
试 项 ， 而 又 不 想 让 测试 框架 生成 更 多 报告 信息 ， 那 么 可 以 使 用 装饰 器 @expectedFailure 
对 其 进行 标注 。 

用 来 跳 过 检查 的 装饰 器 同样 可 以 作用 到 整个 测试 类 上 。 示 例如 下 : 


@unittest.skipUnless(platform.system() == 'Darwin', 'Mac specific tests') 
class DarwinTests (unittest.TestCase) : 



































14.6 ”处 理 多 个 异常 


14.6.1 问题 
我 们 有 一 段 代 码 可 以 抛 出 几 个 不 同 的 异常 ， 而 我 们 需要 负责 处 理 所 有 可 能 会 发 生 的 异 
常 。 要 求 处 理 的 时 候 无 需 创 建 重复 代码 或 者 元 长 的 代码 段 。 
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14.6.2 解决 方案 
如 果 能 够 用 一 个 单独 的 代码 块 处 理 所 有 不 同 的 异常 ， 可 以 将 它们 归 组 到 一 个 元 组 中 。 
示例 如 下 : 


try: 





client_obj.get_url (url) 
except (URLError, ValueError, SocketTimeout): 


client_obj.remove_url (url) 


在 上 面 的 代码 中 ， 如 果 列 出 的 这 些 异常 中 有 任何 一 个 出 现 ， 则 会 调用 remove_url0 方 法 。 
另 一 方面 , 如 果 需 要 对 其 中 某 个 异常 采取 不 同 的 处 理 办 法 , 可 以 将 其 放 人 单独 的 except 
子 句 中 去 : 


try: 
client_obj.get_url (url) 
except (URLError, ValueError) : 
client_obj.remove_url (url) 
except SocketTimeout: 


client_obj.handle_url_timeout (url) 


有 许多 异常 都 会 被 归 组 为 继承 体系 。 对 于 这 样 的 异常 ， 可 以 通过 指定 一 个 基 类 来 捕获 
所 有 的 异常 。 例 如 ， 与 其 像 这 样 编写 代码 : 


try: 


























f = open (filename) 
except (FileNotFoundError, PermissionError) : 





不 如 像 这 样 重 写 except 语句 : 


try: 
f = open (filename) 
except OSError: 



































这 么 做 是 可 行 的 ， 因 为 OSError 是 基 类 ，FileNotFoundError 和 PermissionError 异常 都 是 
它 的 子 类 。 

14.6.3 ”讨论 

值得 一 提 的 是 ， 可 以 在 抛 出 的 异常 上 使 用 关键 字 as， 人 尽管 这 并 非 是 特定 于 处 理 多 个 异 
名 的 技术 。 


try: 














f = open (filename) 
except OSError as e: 
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if e.errno == errno.ENOENT: 
logger.error('File not found') 
elif e.errno == errno.EACCES: 
logger.error('Permission denied') 
else: 


logger.error('Unexpected error: %d', e.errno) 
在 上 面 的 例子 中 , 变量 e 保存 着 异常 OSError 的 实例 。 如 果 之 后 需要 检查 这 个 异常 ， 比 
如 要 根据 额外 的 状态 码 来 进行 处 理 ， 那 这 就 很 有 用 了 。 
需要 注意 的 是 ，except 子 句 是 按照 列 出 的 顺序 进行 检查 的 ， 而 第 一 个 匹配 成 功 的 子 句 将 
得 到 执行 。 虽然 这 么 做 会 有 些 病 态 ， 但 是 可 以 轻易 地 创建 出 多 个 except 子 句 都 可 能 匹 
配 的 情况 。 示 例如 下 : 


>>> f = open('missing') 





























Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
FileNotFoundError: [Errno 2] No such file or directory: 'missing' 
>>> try: 
f = open('missing') 
. except OSError: 
print ('It failed') 
. except FileNotFoundError: 
print ('File not found') 


It failed 
>>> 





这 里 的 except FileNotFoundError 子 句 不 会 执行 ， 因 为 OSError 更 加 一 般 化 ， 它 也 能 匹 
配 FileNotFoundError 异常 ， 而 且 它 是 首先 列 出 的 ， 因 此 会 先 匹 配 执行 。 


给 大 家 一 个 调试 的 小 技巧 ， 如 果 你 不 能 完全 确定 某 个 特定 异常 的 类 层次 结构 ， 可 以 通 
过 检查 异常 的 _mro 属性 来 快速 查阅 。 示 例如 下 : 


>>> FileNotFoundError. mro 














(<class 'FileNotFoundError'>, <class 'OSError'>, <class 'Exception'>, 
<class 'BaseException'>, <class 'object'>) 
>> 


以 上 列 出 的 这 些 类 中 ， 只 要 排 在 BaseException 之 前 的 都 可 以 用 在 except 语句 中 。 


14.7 ”捕获 所 有 的 异常 


14.7.1 ”问题 
我 们 想 编写 代码 来 捕获 所 有 的 异常 。 





测试 、 调 试 以 及 异常 589 


14.7.2 ”解决 方案 
要 捕获 所 有 的 异常 ， 可 以 为 Exception 类 编写 一 个 异常 处 理 程序 ， 示 例如 下 : 


try: 



































except Exception as e: 


log('Reason:', e) # Important! 


除了 SystemExit、KeyboardInterrupt 和 GeneratorExit 之 外 ， 上面 的 代码 能 够 捕获 所 有 的 
异常 。 如 果 也 想 捕 获 这 些 异常 的 话 ， 只 要 把 Exception 修改 为 BaseException 即 可 。 


14.7.3 ”讨论 

有 时 候 当 程序 员 没 法 记 住 某 个 复杂 操作 中 可 能 产生 的 所 有 异常 时 ， 捕 获 所 有 的 异常 就 
成 了 他 们 唯一 的 支柱 。 同 样 ， 如 果 你 不 够 小 心 的 话 ， 这 也 是 写 出 无 法 调试 的 代码 的 绝 
佳 方式 。 
正 因为 如 此 ， 如 果 选 择 捕获 所 有 的 异常 ， 那 么 针对 异常 产生 的 实际 原因 做 日 志 记 录 
或 报告 就 绝对 是 至 关 重 要 的 了 ( 例如 ， 产 生日 志文 件 ， 或 者 将 出 错 信 息 打 印 到 屏幕 
上 等 )。 如 果 不 这 么 做 ， 那 么 某 个 时 刻 你 的 大 脑 很 可 能 会 乱 成 一 锅 缆 。 考 虑 下 面 这 
个 示例 : 


def parse_int(s): 







































































try: 
n = int(v) 
except Exception: 
print ("Couldn't parse") 


如 果 试 着 调用 这 个 函数 ， 它 的 行为 是 这 样 的 : 


>>> parse int ('n/a') 





Couldn't parse 

>>> parse int ('42') 
Couldn't parse 

>>> 


此 时 ,你 可 能 会 抓 着 脑袋 想 为 什么 它 不 能 工作 呢 ? 现 在 假设 函数 被 改写 为 如 下 形式 : 


def parse_int(s): 
try: 
n = int(v) 
except Exception as e: 
print ("Couldn't parse") 
print ('Reason:', e) 
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在 这 种 情况 下 ， 会 得 到 如 下 形式 的 和 输出， 能够 清楚 表明 上 述 代 码 中 出 现 了 一 个 编程 错误 : 


>>> parse_int('42') 














Couldn't parse 
Reason: global name 'v' is not defined 
>>> 














所 有 事情 都 是 平等 的 ， 在 处 理 异 常 的 时 候 最 好 还 是 尽 可 能 使 用 精确 的 异常 类 。 但 是 ， 
如 果 必 须 捕 获 所 有 的 异常 ， 那 就 要 确保 提供 高 质量 的 诊断 信息 ， 或 者 将 异常 传播 出 去 ， 
这 样 就 不 会 丢失 异常 产生 的 原因 。 




















14.8 创建 自 定义 的 异常 


14.8.1 问题 
我 们 正在 构建 一 个 应 用 ,希望 对 底层 的 异常 进行 包装 从 而 打造 出 自 定义 的 异常 类 。 这 
种 自 定 义 的 异常 在 应 用 程序 的 上 下 文 环境 中 可 以 包含 更 多 的 含义 。 


14.8.2 ”解决 方案 

创建 新 的 异常 是 非常 简单 的 只 要 将 它们 定义 成 继承 自 Exception 的 类 即 可 (也 可 以 
继承 自 其 他 已 有 的 异常 类 型 ， 如 果 这 么 做 更 有 道理 的 话 )。 例如， 如 果 正 在 编写 网 络 编 
程 相关 的 代码 ， 则 可 能 会 像 这 样 定义 一 些 自 定义 的 异常 : 


class NetworkError (Exception): 

































































pass 


class HostnameError (NetworkError): 
pass 


class TimeoutError (NetworkError): 
pass 


class ProtocolError (NetworkError) : 


pass 











用 户 能 够 以 普通 的 方式 来 使 用 这 些 异 常 ， 示 例如 下 : 


try: 








msg = s.recv() 


except TimeoutError as e: 


except ProtocolError as e: 
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14.8.3 讨论 

自 定义 的 异常 类 应 该 总 是 继承 自 内 建 的 Exception 类， 或 者 继承 自 一 些 本 地 定义 的 基 类 ， 
而 这 个 基 类 本 身 又 是 继承 自 Exception 的 。 虽 然 所 有 的 异常 也 都 继承 自 BaseException, 
但 不 应 该 将 它 作 为 基 类 来 产生 新 的 异常 。BaseException 是 预 留 给 系统 退出 异常 的 ， 比 
如 KeyboardInterrupt 或 者 SystemExit， 以 及 其 他 应 该 通知 应 用 程序 退出 的 异常 。 因 此 ， 
捕获 这 些 异 常 并 不 适用 于 它们 本 来 的 用 途 。 假 设 遵循 这 个 约定 ， 从 BaseException 继承 
而 来 的 自 定 义 异 常 将 无 法 捕获 ， 也 不 能 通知 应 用 程序 关闭 ! 

在 自己 的 应 用 中 使 用 自 定 义 的 异常 ， 这 使 得 任何 需要 阅读 源 代码 的 人 能 够 更 好 地 理解 
程序 的 行为 。 有 一 种 设计 上 的 考虑 是 通过 继承 机 制 将 自 定 义 的 异常 归 类 到 一 起 。 在 复 
杂 的 应 用 中 ， 引 入 更 高 层 的 基 类 将 不 同 的 异常 类 归 组 到 一 起 是 很 有 意义 的 。 这 给 了 用 
户 捕 获 细 粒度 错误 的 能 力 ， 比 如 : 


try: 






















































































s.send (msg) 
except ProtocolError: 





但 同样 也 能 够 捕获 粗 粒 度 范 围 内 的 错误 ， 比 如 : 


try: 
s.send (msg) 
except NetworkError: 

















如 果 打 算 定 义 一 个 新 的 异常 并 且 改 写 Exception 的 _init 0 方法 , 请 确保 总 是 用 所 有 传 
递 过 来 的 参数 调用 Exception. init 0。 示例 如 下 ; 


class CustomError (Exception) : 








def init__(self, message, status): 
super(). init (message, status) 
self.message = message 
self.status = status 


这 可 能 看 起 来 有 点 古怪 ， 但 是 Exception 的 默认 行为 就 是 接受 所 有 传递 过 来 的 参数 并 将 它 
们 以 元 组 的 形式 保存 到 .args 属性 中 。Python 中 的 其 他 组 件 以 及 各 种 各 样 的 库 都 期 望 所 有 
的 异常 都 有 一 个 .args 属性 ， 因 此 如 果 跳 过 了 这 一 步 ， 那 么 就 会 发 现 新 创建 的 异常 在 特定 
上 下 文 环境 中 表现 出 不 正确 的 行为 。 为 了 说 明 对 .args 的 使 用 ， 考 虑 下 面 的 交互 式 会 话 ， 
这 里 用 到 了 内 建 的 RuntimeError 异常 ， 注 意 在 raise 语句 中 可 以 使 用 多 少 个 参数 : 


>>> try: 



























































raise RuntimeError('It failed') 
.. except RuntimeError as e: 
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print (e.args) 


(‘It failed', 
>>> try: 
raise RuntimeError('It failed', 42, 'spam') 
. except RuntimeError as e: 


print (e.args) 


('It failed', 42, 'spam') 
>> 





要 得 到 关于 创建 自 定义 异常 的 更 多 内 容 ， 请 查阅 Python 文档 ( http://docs. python.org/3/ 
tutorial/errors.html )。 








14.9 通过 引发 异常 来 响应 另 一 个 异常 


14.9.1 问题 

我 们 想 引发 一 个 异常 作为 捕获 另 一 个 异常 时 的 响应 ， 但 是 希望 在 traceback 回溯 中 同时 
包含 这 两 个 异常 的 有 关 信息 。 

14.9.2 解决 方案 


要 将 异常 串联 起 来 , 可 以 用 raise from 语句 来 替代 普通 的 raise。 这 么 做 能 够 提供 这 两 个 
异常 的 有 关 信息 。 示 例如 下 : 


>>> def example(): 

















try: 
int ('N/A') 
except ValueError as e: 
raise RuntimeError('A parsing error occurred') frome... 
>>> 
example () 
Traceback (most recent call last): 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 


The above exception was the direct cause of the following exception: 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in example 

RuntimeError: A parsing error occurred 

>>> 
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在 traceback 回溯 中 可 以 发 现 这 两 个 异常 都 被 捕获 了 。 要 捕获 这 样 的 异常 ， 可 以 使 用 普 
通 的 except 语句 。 但 是 ， 可 以 通过 查看 异常 对 象 的 _cause 属性 来 跟踪 所 希望 的 异常 
链 。 示 例如 下 : 


try: 

















example () 
except RuntimeError as e: 

print ("It didn't work:", e) 
if e. cause : 

print ('Cause:', e. cause ) 


当 在 except 语句 块 中 引发 男 一 个 异常 时 ， 此 时 会 产生 异常 链 的 隐 式 形式 。 示 例如 下 : 


>>> def example2(): 





try: 
int ('N/A') 
except ValueError as e: 
print ("Couldn't parse:", err) 


>> 
>>> example2 () 
Traceback (most recent call last): 
File "<stdin>", line 3, in example2 
ValueError: invalid literal for int() with base 10: 'N/A' 


During handling of the above exception, another exception occurred: 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "<stdin>", line 5, in example2 
NameError: global name 'err' is not defined 
>>> 











在 这 个 例子 中 可 以 得 到 这 两 个 异常 的 相关 信息 ， 但 是 这 与 第 一 个 例子 有 所 不 同 。 在 这 
种 情况 下 ，NameError 异常 是 由 于 编程 错误 而 产生 的 ， 并 非 是 对 解析 错误 的 直接 响应 。 
因此 在 这 种 情况 下 ， 异 常 对 象 的 _cause 属性 并 没有 被 设置 。 相 反 , ZJE context _ 
属性 设置 为 前 一 个 异常 ( 即 ，ValueError )。 

如 果 出 于 某 种 原因 想 阻 止 异 常 链 的 产生 ， 可 以 使 用 raise from None 来 完成 : 


>>> def example3(): 

















try: 
int ('N/A') 
except ValueError: 
raise RuntimeError('A parsing error occurred') from None... 
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>>> example3 () 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in example3 

RuntimeError: A parsing error occurred 


>>> 


14.9.3 Ji 
在 设计 代码 的 时 候 , 对 于 在 except 块 中 使 用 raise 语句 的 情况 , 大 家 应 该 特别 小 心 。 大 部 分 
情况 下 ， 这 种 raise 语句 都 应 该 改 为 raise ffom。 也 就 是 说 ， 我 们 应 该 采用 下 面 这 种 风格 : 


try: 























except SomeException as e: 
raise DifferentException() from e 


这 么 做 的 原因 在 于 我 们 需要 显 式 将 异常 产生 的 原因 串联 起 来 。 也 就 是 说 ，Different 
Exception 是 直接 响应 SomeException。 这 两 个 异常 间 的 关系 会 在 traceback 回溯 中 显 式 
给 出 [0] 

如 果 采 用 下 面 这 种 风格 ， 还 是 可 以 得 到 异常 链 。 但 是 通常 这 么 做 不 能 明确 表达 出 异常 
链 是 程序 员 有 意 为 之 ， 还 是 由 于 无 法 预见 的 编程 错误 而 产生 的 : 


try: 


















































except SomeException: 
raise DifferentException() 


当 使 用 raise from 语句 时 ， 就 需 明确 表达 出 你 希望 引发 第 二 个 异常 的 意图 。 


最 好 不 要 像 最 后 那个 例子 中 那样 抑制 异常 信息 。 尽 管 这 么 做 产生 的 traceback 
较 短 小 ， 但 同时 也 丢弃 了 对 调试 而 言 很 有 用 的 信息 。 任 何事 情 没 有 绝对 之 分 ， 通常 
好 还 是 尽 可 能 多 地 保留 调试 信息 为 好 。 


























14.10 ”重新 抛 出 上 一 个 异常 


14.10.1 问题 
我 们 在 except 块 中 捕获 了 一 个 异常 ， 现 在 想 将 它 重新 抛 出 。 


14.10.2 ”解决 方案 
只 需要 单独 使 用 raise 语句 即 可 。 示 例如 下 : 























测试 、 调 试 以 及 异常 595 


>>> def example(): 
try: 
int ('N/A') 
except ValueError: 
print ("Didn't work") 


raise 


>>> example () 
Didn't work 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 
>>> 


14.10.3 ”讨论 

这 个 问题 通常 出 现在 需要 对 某 个 异常 做 出 响应 ( 比如 记录 日 志 、 完 成 清理 工作 等 )， 
但 之 后 希望 将 异常 再 传播 出 去 时 。 一 个 非常 常见 的 用 途 就 是 用 在 捕获 所 有 异常 的 处 
理 中 : 


try: 























except Exception as e: 


# Process exception information in some way 


# Propagate the exception 
raise 


14.11 发 出 告警 信息 


14.11.1 问题 

我 们 想 让 自己 的 程序 能 够 发 出 告警 信息 ( 例如， 对 废弃 的 功能 或 者 使 用 上 的 问题 进行 
告警 提示 )。 

14.11.2 解决 方案 

要 让 程序 产生 告警 信息 ， 可 以 使 用 warnings.warn0 〇 函数 。 示 例如 下 : 





import warnings 


def func(x, y, logfile=None, debug=False) : 
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if logfile is not None: 
warnings.warn('logfile argument deprecated', DeprecationWarning) 


warn() 函数 的 参数 是 一 条 告警 信息 附带 一 个 告警 类 别 ， GSN UserWarning 、 
DeprecationWarning 、 SyntaxWarning 、 RuntimeWarning 、 ResourceWarning 或 者 
FutureWarning 中 的 一 种 。 


对 告警 信息 的 处 理 取 决 于 如 何 执 行 解释 器 以 及 其 他 的 相关 配置 。 例 如 ， 如 果 用 -W all 
选项 来 运行 Python 解释 器 ， 则 会 得 到 如 下 的 输出 : 


bash % python3 -W all example.py 








example.py:5: DeprecationWarning: logfile argument is deprecated 
warnings.warn('logfile argument is deprecated', DeprecationWarning) 


一 般 来 说 ， 告 警 信息 只 会 发 送 到 标准 错误 输出 上 。 如 果 想 把 告警 转换 为 异常 ， 可 以 使 
用 -W error 选项 


























bash % python3 -W error example.py 
Traceback (most recent call last): 
File "example.py", line 10, in <module> 
func(2, 3, logfile='log.txt') 
File "example.py", line 5, in func 
warnings.warn('logfile argument is deprecated', DeprecationWarning) 
DeprecationWarning: logfile argument is deprecated 
bash % 


14.11.3 ”讨论 

为 了 维护 软件 以 及 帮助 用 户 更 好 地 使 用 软件 ， 产 生 告警 信息 常常 是 一 项 有 用 的 技术 。 
比如 说 ， 
如 果 打 算 修改 革 个 库 或 者 框架 的 行为 ， 可 以 针对 打算 修改 的 部 分 启用 告警 信息 ， 同 时 在 
一 段 时 间 也 可 以 提醒 用 户 有 关 用 法 方面 的 问题 。 

在 内 建 的 warning 库 中 还 有 另 一 个 关于 告警 应 用 的 示例 。 下 面 的 例子 用 来 说 明 当 未 关闭 
文件 对 象 就 打算 将 其 销 SAIN RHE A nA: 


>>> import warnings 
























































>>> warnings.simplefilter('always') 
>>> f = open('/etc/passwd') 
>>> del f 
_ main :1: ResourceWarning: unclosed file < io.TextIOWrapper name='/etc/passwd' 
mode='r' encoding='UTF-8'> 
>>> 


默认 情况 下 ， 并 非 所 有 的 告警 信息 都 会 显示 出 来 。-W 选项 能 够 控制 告警 信息 的 输出 。 
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-W all 将 会 输出 所 有 的 告警 信息 ， 而 -W ignore 选项 会 忽略 所 有 的 告警 ，-W error ae 
警 转换 为 异常 。 另 外 一 种 替代 方案 就 是 使 用 warnings.simplefilter() 函数 来 控制 输出 ， 
面 的 示例 采用 的 正 是 这 个 方法 。 参数“always” 使 得 所 有 的 告警 信息 都 会 显示 , 而 
则 表示 忽略 所 有 的 告警 , “error” 则 会 把 告警 转换 为 异常 。 


对 于 简单 的 情况 ， 这 就 是 所 有 需要 了 解 的 有 关 产 生 告 警 信息 的 知识 。warmings 模块 提供 
了 许多 与 信息 过 滤 以 及 处 理 告警 信息 相关 的 高 级 配置 选项 。 更 多 信息 可 参阅 Python X 
#4 (http://docs.python.org/3/library/warnings.html )。 













































































14.12 ”对 基本 的 程序 骨 溃 问题 进行 调试 


14.12.1 ”问题 
我 们 的 程序 崩溃 了 ， 我 们 希望 通过 一 些 简单 的 策略 来 调试 它 。 


14.12.2 ”解决 方案 

如 果 程 序 由 于 产生 异常 而 月 演 了 ， 可 以 通过 python3 -i someprogram.py 的 方式 来 运 

行程 序 。 这 rey 单 地 查看 产生 问题 的 原因 。 一 旦 程序 终止 ，-i 选项 就 会 开启 
一 个 交互 式 shell， 这 里 就 可 以 对 程序 运行 的 环境 做 一 番 探 究 了 。 例如 , 假设 有 如 下 

的 代码 : 


# sample.py 






































def func(n): 
return n + 10 


func('Hello') 





通过 python3 -i 来 运行 程序 会 产生 下 列 输出 : 


bash % python3 -i sample.py 





Traceback (most recent call last): 
File "sample.py", line 6, in <module> 
func('Hello') 
File "sample.py", line 4, in func 
return n + 10 
TypeError: Can't convert 'int' object to str implicitly 
>>> func(10) 
20 
>>> 





WRG A WOR AAS HZ BS TAD, IS A EEF Ro HAY LAR Python 调试 器 





598 第 14 章 


来 助阵 。 示 例如 下 : 


>>> import pdb 

>>> pdb.pm() 

> sample.py (4) func () 
-> return n + 10 
(Pdb) w 
sample.py (6) <module> () 
-> func('Hello') 

> sample.py (4) func () 
-> return n + 10 
(Pdb) print n 
"Hello! 

(Pdb) q 

>>> 


如 果 我 们 的 代码 深 埋 在 一 个 难以 获取 交互 式 shell 的 环境 中 ( 比如 在 服务 需 中 ), 通常 可 
以 捕获 错误 并 自己 生成 traceback 回 湖 。 示 例如 下 : 


import traceback 





funy 

















import sys 


try: 
func (arg) 
except: 
print ('**** AN ERROR OCCURRED ****') 


traceback.print_exc(file=sys.stderr) 









































如 果 程 序 并 没有 崩 演 只 是 产生 错误 的 结果 ， 又 或 者 我 们 只 是 想 了 解 程序 究 竞 是 如 何 工 
TER), 那么 在 代码 中 感 兴趣 的 位 置 上 插入 一 些 printO 调 用 是 完全 合理 的 。 但 是 ， 如 果真 
的 打算 这 么 做 , 这 里 有 一 些 我 们 可 能 会 感 兴趣 的 相关 技术 。 首先 , traceback. print_stack() 
函数 会 在 程序 调用 它 的 地 方 立 刻 打 印 出 调用 栈 的 信息 。 示 例如 下 : 
>>> def sample(n): 
if n> 0: 








sample (n-1) 
else: 


traceback.print_stack (file=sys.stderr) 


>>> sample (5) 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
File "<stdin>", line 3, in sample 
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File "<stdin>", line 5, in sample 
>>> 


作为 替代 方案 ， 也 可 以 在 程序 的 任意 位 置 通过 调用 pdb.set_ trace0) 来 手动 加 载 调试 器 : 


import pdb 








def func(arg): 


pdb.set_trace() 




















这 对 于 研究 大 型 程序 的 内 部 原理 、 了 解 程序 的 控制 流 或 者 函数 参数 都 是 非常 有 用 的 技 
术 。 例 如 ,一 旦 启动 了 调试 器 ， 就 可 以 通过 print 来 观察 变量 , 或 者 输入 命令 比如 w 来 
获取 栈 回溯 信息 。 


14.12.3 ”讨论 

不 要 把 调试 弄 的 过 于 复杂 。 简 单 的 错误 常常 可 以 通过 阅读 程序 的 traceback 回溯 来 解决 
(实际 错误 通常 是 traceback 的 最 后 一 行 ) 如 果 你 正 处 于 开发 过 程 中 ,而 你 只 是 想 获得 一 
些 诊断 信息 ， 那 么 在 代码 中 插入 一 些 printO 函 数 也 能 很 好 的 完成 任务 只 是 稍 后 要 记得 
将 这 些 打 印 语句 去 掉 )。 

调试 器 的 常见 用 途 就 是 对 已 经 崩 演 的 函数 中 的 变量 进行 检查 。 知 道 如 何在 程序 崩 淡 之 
后 进入 调试 器 是 一 项 有 用 的 技能 。 

如 果 要 人 研究 一 个 特别 复杂 的 程序 , 其 底层 的 控制 流 并 不 明显 , 那么 插入 像 pdb.set_trace0 这 样 
的 语句 也 是 十 分 有 帮助 的 。 从 本 质 上 说 , 程序 会 一 直 运 行 ， 直 到 过 到 set trace0 调 用 为 止 ， 
此 时 会 立刻 进入 调试 器 。 这 之 后 就 可 以 好 好 利用 调试 器 的 功能 

如 果 使 用 IDE 来 做 Python 开发 ， 一 般 来 说 IDE 都 会 提供 自己 的 调试 接口 。 调 试 接口 要 么 
是 构建 在 pdb 之 上 的 ， 要么 就 取代 了 pdb。 可 以 参考 你 的 IDE 手册 以 获得 更 多 的 信息 。 




























































































14.13 ”对 程序 做 性 能 分 析 以 及 计时 统计 


14.13.1 问题 
我 们 想 知 道 程序 在 运行 时 把 时 间 都 花 在 了 哪些 地 方 ， 并 且 想 对 运行 时 间 做 计时 统计 。 


14.13.2 ”解决 方案 


如 果 只 是 想 简单 地 对 整个 程序 做 计时 统计 ， 通 常 使 用 UNIX 下 的 time 命令 就 足够 了 。 
示例 如 下 : 
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bash % time python3 someprogram.py 
real 0m13.937s 

user 0m12.162s 

sys 0m0.098s 

bash % 


再 来 看 看 另 一 个 极端 。 如 果 想 针对 程序 的 行为 产生 一 份 详细 的 报告 ， 那 么 可 以 使 用 
cProfile 模块 : 




















bash % python3 -m cProfile someprogram.py 
859647 function calls in 16.016 CPU seconds 


Ordered by: standard name 


ncalls tottime percall cumtime percall filename: lineno (function) 














( 
263169 0.080 0.000 0.080 0.000 someprogram.py:16(frange) 
513 0.00 0.000 0.002 0.000 someprogram.py:30 (generate _mandel) 
262656 0.194 0.000 5.295 0.000 someprogram.py:32(<genexpr>) 
1 0.036 0.036 16.077 16.077 someprogram.py: 4 (<module>) 
262144 15.021 0.000 5.021 0.000 someprogram.py:4(in_mandelbrot) 
10.000 0.000 0.000 0.000 os.py:746(urandom) 
10.000 0.000 0.000 0.000 png.py:1056(_readable) 
10.000 0.000 0.000 0.000 png.py:1073 (Reader) 
1 0.227 0.227 0.438 0.438 png.py:163(<module>) 
512 0.010 0.000 0.010 0.000 png.py:200 (group) 
















































































bash % 
对 代码 做 性 能 分 析 ， 更 常见 的 情况 则 处 于 上 述 两 个 极端 情况 之 间 。 比 如 ， 我 们 可 能 已 
经 知道 了 代码 把 大 部 分 运行 时 间 都 花 在 某 几 个 函数 上 了 。 要 对 函数 进行 性 能 分 析 ， 使 
用 装饰 需 就 能 办 到 。 示 例如 下 : 


# timethis.py 














import time 
from functools import wraps 


def timethis (func): 
@wraps (func) 
def wrapper(*args, **kwargs): 
start = time.perf_counter () 
r = func(*args, **kwargs) 
end = time.perf_counter () 
print ('{}.{} : {}'.format (func. module , func. name , end - start)) 
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return r 


return wrapper 


要 使 用 这 个 装饰 咒 ， 只 要 简单 地 将 其 放 在 函数 定义 之 前 ， 就 能 得 到 对 应 函数 的 计时 信 
息 了 。 示 例如 下 : 


>>> @timethis 
. def countdown (n) : 
while n > 0: 


nN 1 


>>> countdown (10000000) 
_main .countdown : 0.803001880645752 
>>> 





要 对 语句 块 进行 计时 统计 ， 可 以 定义 一 个 上 下 文 管理 需 来 实现 。 示 例如 下 : 


from contextlib import contextmanager 





@contextmanager 
def timeblock (label): 
start = time.perf_counter () 
try: 
yield 
finally: 
end = time.perf_counter () 
print ('{} : {}'.format (label, end - start) ) 

















下 面 的 例子 演示 了 这 个 上 下 文 管理 需 是 如 何 工作 的 : 


>>> with timeblock('counting'): 





n = 10000000 
while n > 0: 
se == Ll 


counting : 1.5551159381866455 
>> 





如 果 要 对 短小 的 代码 片段 做 性 能 统计 ，timeit 模块 会 很 有 帮助 。 示 例如 下 : 


>>> from timeit import timeit 

>>> timeit ('math.sqrt(2)', ‘import math') 
0.1432319980012835 

>>> timeit ('sqrt(2)', 'from math import sqrt') 
0.10836604500218527 

>>> 
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timeit 会 执行 第 一 个 参数 中 指定 的 语句 一 百 万 次 ， 然 后 计算 时 间 。 第 二 个 参数 是 一 个 配 
置 字 符 串 ， 在 运行 测试 之 前 会 先 执 行 以 设 定好 环境 。 如 果 需 要 修改 迭代 的 次 数 ， 只 需 
要 提供 一 个 number 参数 即 可 。 示 例如 下 : 























>>> timeit ('math.sqrt(2)', ‘import math', number=10000000 
1.434852126003534 

>>> timeit('sqrt(2)', 'from math import sqrt', number=10000000) 
1.0270336690009572 

>>> 


14.13.3 itt 
请 注意 ， 在 进行 性 能 统计 时 ， 任 何 得 到 的 结果 都 是 近似 值 。 解 决 方案 中 使 用 的 函数 
time.perf_counter() 能 够 提供 给 定 平 台 上 精度 最 高 的 计时 器 。 但 是 ， 它 计算 的 仍然 是 
墙 上 时 间 ( wall-clock time ), 这 会 受到 许多 不 同 因素 的 影响 , 例如 机 器 当前 的 负载 。 
如 果 相 对 于 墙 上 时 间 ， 我 们 更 感 兴趣 的 是 进程 时 间 ， 那 么 可 以 使 用 time.process_time() 
来 奉 代 。 示 例如 下 : 

from functools import wraps 


def timethis (func): 


@wraps (func) 















































def wrapper (*args, **kwargs): 
start = time.process_time() 
r = func(*args, **kwargs) 
end = time.process_time() 
print ('{}.{} : {}'.format (func. module , func. name , end - start)) 
return r 





return wrapper 











最 后 但 同样 重要 的 是 ， 如 果 打 算 进 行 详细 的 计时 统计 分 析 ， 请 确保 先 阅读 time, timeit 
以 及 其 他 相关 模块 的 文档 。 这 样 才能 理解 不 同系 统 平 台 之 间 的 重要 差异 以 及 其 他 一 些 
缺陷 。 


本 书 13.13 节 也 介绍 了 一 个 相关 的 主题 ， 即 创建 一 个 秒表 定时 需 。 





14.14 让 你 的 程序 运行 得 更 快 


14.14.1 问题 


我 们 的 程序 运行 得 太 慢 了 ， 我 们 想 让 它 提 速 ， 但 不 使 用 那些 极端 的 解决 方案 ， 比 如 C 
扩展 或 JIT 编译 器 。 
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14.14.22 ”解决 方案 

尽管 关于 优化 的 第 一 原则 也 许 是 “不 优化 ”， 但 第 二 原则 几乎 肯定 是 “不 要 优化 那些 不 
重要 的 部 分 ”。 基 于 这 两 个 原则 ， 如 果 我 们 的 程序 运行 的 很 慢 ， 应 该 采用 14.13 节 中 讨 
论 的 方法 开始 对 代码 进行 性 能 分 析 。 

多 半 时 候 我 们 都 会 发 现 程序 把 大 量 的 时 间 花 在 了 几 个 “热点 ”( hotspot ) 上 ， 比 如 处 理 
数据 时 的 内 层 循环 。 一 旦 确认 了 这 些 “ 热 点 "， 就 可 以 使 用 以 下 各 小 节 中 介绍 的 技术 让 
程序 运行 得 更 快 。 

使 用 函数 

有 很 多 程序 员 开始 使 用 Python 时 都 用 它 来 编写 一 些 简单 的 脚本 。 当 编写 脚本 时 ， 很 容 
易 陷 和 人 只管 编写 代码 而 不 重视 程序 结构 的 怪圈 。 例 如 ， 


# somescript.py 











J 


















































import sys 
import csv 


with open (sys.argv[1]) as f: 
for row in csv.reader (f): 


# Some kind of processing 


一 个 鲜 为 人 知 的 事实 是 ， 像 上 面 这 样 定义 在 全 局 范围 内 的 代码 运行 起 来 比 定义 在 函数 
中 的 代码 要 慢 。 速 度 的 差异 与 局 部 变量 和 全 局 变量 的 实现 机 制 有 关 (涉及 局 部 变量 的 
操作 要 更 快 ) 因此 ， 如 果 想 让 程序 运行 得 更 快 ， 只 要 将 脚本 中 的 语句 放 和 一 个 函数 中 
即 可 : 


# somescript.py 















































import sys 
import csv 


def main (filename): 
with open (filename) as f: 
for row in csv.reader (f): 


# Some kind of processing 


main(sys.argv[1] 


运行 速度 的 差异 与 所 执行 的 处 理 有 很 大 关系 , 但 根据 我 们 的 经 验 , 提升 15% ~ 30% 的 情 
况 并 非 罕见 。 
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有 选择 性 的 消除 属性 访问 


每 次 使 用 句 








点 操作 符 〈. ) 来 访问 属性 时 都 会 带 来 开销 。 在 底层 ， 这 会 触发 调用 特殊 方 








法 ， 比 如 ”getattribute 0 和 _ getattr ()， 而 调用 这 些 方 法 常常 会 导致 做 字典 查询 操作 。 








通常 可 以 通 
method ) 来 














过 from module import name 的 导入 形式 以 及 选择 性 地 使 用 绑 定 方法 (bound 
避免 出 现 属性 查询 操作 。 为 了 说 明 清 楚 ， 考 虑 下 面 的 代码 片段 : 





import math 


def compute_roots (nums) : 


resu 


lt: = [] 


for n in nums: 


result .append (math. sqrt (n) ) 


return result 


# Test 


nums = range (1000000) 


for n in 


range (100): 


r = compute_roots (nums) 


当 在 我 们 的 
改 为 如 下 形 


机 器 上 测试 时 ， 这 个 程序 运行 了 大 约 40 秒 。 现 在 将 compute_roots() MAE 
式 : 


from math import sqrt 


def compute_roots (nums) : 


result = 


[] 


result_append = result .append 


for n in 


resu 


nums: 


lt_append (sqrt (n) ) 


return result 


这 个 版 本 的 








运行 时 间 大 约 是 29 秒 。 两 个 版 本 间 的 唯一 区 别 就 在 属性 访问 上 ， 第 二 个 版 





本 消除 了 对 属性 的 访问 。 与 其 使 用 math.sqrt0 ， 现 在 代码 可 直接 使 用 sqrt0)。 此 外 ， 
resultappend() 方 法 现在 被 放置 在 一 个 局 部 变量 result_append 中 ， 然 后 再 在 内 层 循环 中 


重复 使 用 它 














o 








但 是 ， 必 须要 强调 的 是 ， 只 有 在 频繁 执行 的 代码 中 做 这 些 修 改 才 有 意义 ， 比 如 在 循环 


中 。 因此 ， 


这 种 优化 技术 适用 的 场景 需要 经 过 仔细 挑选 。 


理解 变量 所 处 的 位 置 
前 面 已 经 说 过 了 了， 访问 局 部 变量 比 全 局 变量 要 更 快 。 对 于 需要 频繁 访问 的 名 称 ， 想 提 


高 运行 速度 


























， 可 以 通过 让 这 些 名 称 尽 可 能 成 为 局 部 变量 来 达成 。 例 如 ， 考 虑 下 面 这 个 
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修改 过 的 compute_roots() PAR: 
import math 
def compute_roots (nums) : 


sqrt = math.sqrt 
result = [] 


result_append = result.append 


for n in nums: 


result_append (sqrt (n) ) 


return result 


在 这 个 版 本 中 ，sqrt 方法 已 经 从 math 模块 中 提取 出 来 并 放置 在 一 个 局 部 变量 中 。 如 果 
运行 这 份 代码 ， 现 在 的 运行 时 间 大 约 是 25 秒 ( 比 上 一 个 版 本 的 29 秒 又 有 所 提升 )。 这 
次 提升 就 是 因为 查找 局 部 变量 sqrt 比 在 全 局 范围 内 查找 sqrt 要 更 快 。 

当 使 用 类 的 时 候 ， 局 部 参数 同样 能 起 到 提速 的 效果 。 一 般 来 说 ， 查 找 像 self.name 这 样 
的 值 会 比 访问 一 个 局 部 变量 要 慢 很 多 。 在 内 层 循 环 中 将 需要 经 常 访问 的 属性 移 到 局 部 




















变量 中 来 会 很 划算 。 示 例如 下 : 


# Slower 
class SomeClass: 


def method(self): 
for x in s: 


op (self.value) 


# Faster 
class SomeClass: 


def method(self): 


value = self.value 


for x in s: 
op (value) 
避免 不 必要 的 抽象 











任何 时 候 当 使 用 额外 的 处 理 层 比 如 装饰 器 (decorator )、 属 性 (property ) 或 者 描述 
FF (descriptor ) 来 包装 代码 时 ， 代 码 的 运行 速度 就 会 变 慢 。 作 为 示例 ， 参 考 下 面 这 


个 类 : 


class A: 
def init (self, x, y): 
self.x = x 
self.y =y 
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@property 
def y(self): 
return self. y 
@y.setter 
def y(self, value): 
self. y = value 


现在 做 一 个 简单 的 计时 测试 : 


>>> from timeit import timeit 
>>> a = A(1,2) 


>>> timeit('a.x', 'from main import a') 
0.07817923510447145 

>>> timeit('a.y', 'from main import a') 
0.35766440676525235 

>>> 





可 以 看 到 ， 访 问 property 属性 y 比 访问 普通 的 属性 x 慢 了 不 止 一 点 ， 而 是 大 约 慢 了 4.5 
倍 。 如果 这 种 差异 对 你 而 言 很 重要 , 你 应 该 问 问 自己 是 否 真 的 有 必要 将 y 定义 为 property 
明 性 。 如 果 不 是 , 那么 去 掉 property 重新 用 普通 的 属性 来 蔡 代 即 可 。 不 能 仅仅 因为 在 其 
他 的 编程 语言 中 使 用 gettersetter 哨 数 非常 普遍 ， 就 错误 地 把 这 种 编程 风格 应 用 到 
Python 上 来 。 


使 用 内 建 的 容器 


内 建 的 数据 类 型 比如 字符 串 、 元 组 、 列 表 、 集 合 以 及 字典 都 是 用 C 语言 实现 的 ， 速 度 
非常 快 。 如 果 倾 向 于 构建 自己 的 数据 结构 作为 蔡 代 〈 例 如， 链表、 平衡 二 又 树 等 ) 想 在 
速度 上 和 内 建 的 数据 结构 相 抗 衡 即使 并 非 不 可 能 也 绝对 会 相当 困难 。 因 此 ， 通 常 最 好 
还 是 直接 使 用 内 建 的 数据 结构 。 





































































































避免 产生 不 必要 的 数据 结构 或 者 拷贝 动作 


有 时 候 程序 员 会 在 不 必要 的 情况 下 忘乎所以 地 创建 一 些 不 必要 的 数据 结构 。 例 如 ， 有 
的 人 可 能 会 编写 出 如 下 的 代码 : 


values = [x for x in sequence] 





squares = [x*x for x in values] 


也 许 这 里 的 想法 是 先 将 一 些 值 收集 到 一 个 列表 中 ， 然 后 再 对 列表 进行 操作 ， 比 如 
列表 推导 。 但 是 ， 这 里 的 第 一 个 列表 完全 是 没有 必要 的 。 只 要 把 代码 写成 这 样 
即 可 : 


squares = [x*x for x in sequence] 


与 此 相关 的 是 ， 那 些 对 Python 中 共享 值 的 行为 过 于 偏执 的 程序 员 ， 他 们 编写 的 代码 需 
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要 好 好 检查 一 番 。 过 度 使 用 像 copy.deepcopy0 这 样 的 函数 就 是 一 个 信号 ， 这 表示 代码 的 
编写 者 不 完全 理解 或 者 说 信赖 Python 的 内 存 模型 。 在 这 样 的 代码 中 消除 那些 不 必要 的 
拷贝 应 该 是 安全 的 。 


14.14.3 ”讨论 

在 进行 优化 之 前 ， 首 先 分 析 一 下 正在 使 用 的 算法 通常 都 是 很 值得 的 。 把 算法 的 复 
杂 度 切换 为 O(nlgn) 所 带 来 的 性 能 提升 绝对 比 费 力 调整 一 个 O(n**2) 的 实现 要 高 
得 多 。 

如 果 仍 然 决定 必须 优化 ， 那 么 就 从 大 的 方向 考虑 。 一 般 来 说 ， 我 们 不 会 针对 程序 的 每 
个 部 分 都 去 优化 ， 因 为 这 样 的 修改 会 使 得 代码 难以 阅读 和 理解 。 相 反 ， 只 针对 已 知 的 
性 能 瓶颈 做 修改 ， 比 如 内 层 循环 。 


我 们 需要 特别 留意 微 优化 (micro-optimization ) 所 带 来 的 结果 。 比 如 ,考虑 下 面 这 两 种 
创建 字典 的 方法 : 


a={ 
'name' : 'AAPL', 
'shares' : 100, 
"price' : 534.22 
} 



























































b = dict (name='AAPL', shares=100, price=534.22) 


后 一 种 方法 的 好 处 在 于 不 需要 输入 那么 多 字符 ( 不 需要 将 键 名 括 起 来 )。 但 是 ， 如 
果 对 上 述 两 个 代码 片段 做 一 个 性 能 测试 对 比 ， 就 会 发 现 使 用 dictO 的 版 本 要 慢 3 倍 ! 
有 了 这 种 认识 之 后 ,我 们 可 能 会 倾向 于 将 自己 的 代码 扫描 一 遍 ， 把 每 个 用 到 dict) 
的 地 方 都 用 更 加 宛 长 的 方法 蔡 换 掉 。 但 是 ， 聪 明 的 程序 员 只 会 把 精力 集中 在 程序 
中 实际 会 产生 性 能 影响 的 地 方 ， 比 如 内 层 循环 。 而 其 他 地 方 的 速度 差异 根本 就 是 
无 关 紧 要 的 。 

另 一 方面 ， 如 果 我 们 对 性 能 提升 的 要 求 已 经 远 远 超 出 了 本 节 所 讨论 的 这 几 种 简单 技术 , 
那 就 需要 考虑 使 用 基于 即时 编译 (just-in-time compilation ) 技术 的 工具 了 。 例 如 ，PyPy 
项 目 Chttp://pypy.org ) 就 是 对 Python 解释 器 的 重新 实现 ， 可 以 分 析 你 的 程序 并 针对 频 
繁 执行 的 部 分 生成 原始 机 器 码 。 有 时 候 能 使 Python 程序 的 运行 速度 快 上 一 个 数量 级 ， 
常常 能 接近 (甚至 超越 ) C 代码 的 执行 速度 。 不 幸 的 是 ， 在 写作 本 书 时 PyPy 还 没 能 完 
ELIF Python 3。 因 此 ， 这 是 未 来 需要 关注 的 问题 。 此 外 也 可 以 考虑 Numba 项 目 
( http://numba.pydata.org )。Numba 是 一 个 动态 编译 器, 我 们 可 以 选择 需要 优化 的 Python 
函数 ， 然 后 用 装饰 需 来 装饰 。 这 些 函 数 就 会 通过 LLVM ( http:/llvm.org ) 编译 成 原始 的 
机 器 码 。 这 种 方法 同样 能 够 获得 显著 的 性 能 提升 。 但 是 和 PyPy 一 样 , Numba 对 Python 
3 的 支持 应 该 还 只 能 看 做 是 试验 阶段 。 
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最 后 但 同样 


要 的 是 ， 请 牢记 John Ousterhout ( TeVTK 语言 发 明 者 ) WBA: 最 好 的 性 能 





提升 就 是 从 不 能 工作 转变 为 可 以 工作 。( The best performance improvement is the transition 
from the nonworking to the working state. ) 在 确实 需要 优化 之 前 别 担心 这 个 问题 。 确 保 让 程 
序 能 够 正常 工作 总 是 比 让 它 运 行 的 更 快要 更 加 重要 ( 至 少 在 最 初 阶段 是 如 此 )。 
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ae 耸 从 Python 中 访问 C 代码 的 问题 。 许 多 Python 的 内 建 库 都 是 用 C 语言 编写 
能 够 访问 C 代码 对 于 让 Python 同 现 有 的 库 进 行 交 互 是 十 分 重要 的 一 环 。 此 外 ， 如 
着 将 扩展 代码 从 Python 2 移植 到 Python 3 中 ,那么 这 也 是 需要 重点 学 习 的 
部 分 。 
尽管 Python 提供 了 广泛 的 C 语言 编程 API, 但 实际 上 有 着 多 种 不 同 的 方法 来 应 对 C 代 
码 。 与 其 针对 每 个 可 能 的 工具 和 技术 都 给 出 详尽 的 参考 ， 我 们 采用 的 方法 是 把 重点 放 
在 小 段 的 C 代码 上 ， 用 有 代表 性 的 示例 来 展示 如 何 同 C 代码 交互 。 目 的 是 提供 一 系列 
的 编程 模板 ， 有 经 验 的 程序 员 可 以 展开 后 供 自 己 使 用 。 


以 下 就 是 我 们 在 后 续 大 部 分 章节 中 需要 打交道 的 C 代码 : 


/* sample.c */ method 
#include <math.h> 



















































































/* Compute the greatest common divisor */ 
int gcd(int x, int y) { 


int g = y; 
while (x > 0) { 
g= Xi 

X=Yy% Xx; 
yr 9 

} 

return g; 


} 


/* Test if (x0,y0) is in the Mandelbrot set or not */ 
int in mandel (double x0, double y0, int n) { 
double x=0, y=0,xtemp; 





while (n > 0) { 

xtemp = x*x - y*y + x0; 

y = 2*x*y + y0; 

x = xtemp; 

n -= 1; 

if (x*x + y*y > 4) return 0; 
} 


return 1; 


/* Divide two numbers */ 
int divide (int a, int b, int *remainder) { 
int quot = a / b; 


*remainder = a % b; 


return quot; 


/* Average values in an array */ 
double avg(double *a, int n) { 
int i; 
double total = 0.0; 
for (i = 0; i < n; itt) { 
total += a[i]; 
} 


return total / n; 


/* A C data structure */ 

typedef struct Point { 
double x,y; 

} Point; 


/* Function involving a C data structure */ 
double distance (Point *pl, Point *p2) { 

return hypot (pl->x - p2->x, pl->y - p2->y); 
} 


这 份 代 码 包 含 了 大 量 C 编程 中 用 到 的 不 同 特性 。 首 先 ， 有 一 些 简 单 的 函数 如 gcd0 和 
is_mandel()。 而 divide0 则 是 C 函数 中 返回 多 个 值 的 一 个 例子 ， 其 中 一 个 值 是 通过 指针 
参数 返回 的 。avg0 函 数 遍 历 了 CC 数组 并 做 了 数据 转换 。Point 和 distance() PAW T C 
结构 体 。 


后 面 所 有 的 小 节 都 假设 前 面 这 些 C 代码 保存 在 名 为 sample.c 的 文件 中 ， 声 明 可 以 在 
sample.h 中 找到 ， 而 且 代 码 已 经 被 编译 为 libsample 库 ， 可 以 将 其 链接 到 其 他 的 C 代码 
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中 。 


题 。 我 们 假设 如 果 你 正在 同 C 代码 打交道 ， 则 你 已 经 了 解 了 这 些 知识 。 





编译 和 链接 的 具体 细节 在 不 同 的 系统 之 间 有 所 区 别 ， 但 这 不 是 我 们 主要 关注 的 问 





15.1 利用 ctypes 来 访问 C 代码 


15. 


1.1 问题 





我 们 有 一 些 C 函数 已 经 被 编译 为 共享 库 或 者 DLL 了 。 我 们 想 从 纯 Python 代码 中 直接 





调用 这 些 函 数 ， 而 不 必 有 额外 编写 C 代码 或 者 使 用 第 三 方 的 扩展 工具 。 


15. 
对 于 用 C 语言 编写 的 小 程序 ， 使 用 Python 标准 库 中 的 ctypes 模块 来 访问 























1.2 解决 方案 











通常 是 非 

















常 容易 的 。 要 使 用 ctypes ， 必 须 首先 确保 想 要 访问 的 C 代码 已 经 被 编译 为 与 Python 
解释 器 相 兼 容 ( 即 ， 采 用 同样 的 体系 结构 、 字 长 、 编 译 器 等 ) 的 共享 库 了 。 对 于 本 
小 节 来 说 , 假设 已 经 创建 了 共享 库 libsample.so， 其 中 包含 了 本 章 介绍 中 所 示 的 那些 
代码 。 我 们 进一步 假设 文件 libsample.so 与 接 下 来 展示 的 sample.py 放置 在 同一 个 目 
录 中 了 。 
































要 访问 这 个 共享 库 ， 需 要 创建 一 个 Python 模块 来 包装 它 ， 示 例如 下 : 


# sample.py 
import ctypes 
import os 


# Try to locate the .so file in the same directory as this file 
_file = 'libsample.so' 

_path = os.path. join(*(os.path.split(_file_)[:-1] + (_file,))) 
_mod = ctypes.cdll.LoadLibrary (_path) 


# int gcd(int, int) 

gcd = _mod.gcd 

gcd.argtypes = (ctypes.c_int, ctypes.c_int) 
gcd.restype = ctypes.c_int 


# int in mandel (double, double, int) 
in mandel = mod.in mandel 
in_mandel.argtypes = (ctypes.c_double, ctypes.c_double, ctypes.c_int) 


in_mandel.restype = ctypes.c_int 


# int divide(int, int, int *) 


_divide = _mod.divide 


_divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(ctypes.c_int)) 
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_divide.restype = ctypes.c_int 


def divide(x, y): 
rem = ctypes.c_int() 
quot = divide(x, y, rem) 
return quot, rem.value 


# void avg(double *, int n) 
# Define a special type for the ‘double *' argument 
class DoubleArrayType: 
def from_param(self, param): 
typename = type(param). name _ 
if hasattr(self, 'from_' + typename): 
return getattr(self, 'from_' + typename) (param) 
elif isinstance(param, ctypes.Array): 
return param 
else: 


9 


raise TypeError ("Can't convert %s" % typename) 


# Cast from array.array objects 
def from_array(self, param): 
if param.typecode != 'd': 
raise TypeError('must be an array of doubles') 
ptr, _ = param.buffer_info() 
return ctypes.cast (ptr, ctypes.POINTER(ctypes.c_double) ) 


# Cast from lists/tuples 

def from list (self, param): 
val = ((ctypes.c_double) *len (param) ) (*param) 
return val 


from_tuple = from_list 


# Cast from a numpy array 
def from_ndarray(self, param): 
return param.ctypes.data_as (ctypes.POINTER (ctypes.c_double) ) 


DoubleArray = DoubleArrayType () 

_avg = _mod.avg 

_avg.argtypes = (DoubleArray, ctypes.c_int) 
_avg.restype = ctypes.c_double 


def avg (values): 
return _avg (values, len (values) ) 
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# struct Point { } 
class Point (ctypes.Structure): 


_fields_ = [('x', ctypes.c_double), 


('y', ctypes.c_double) ] 


# double distance (Point *, Point *) 

distance = mod.distance 

distance.argtypes = (ctypes.POINTER(Point), ctypes.POINTER (Point) ) 
distance.restype = ctypes.c_double 


如 果 一 切 顺 利 ， 现 在 应 该 可 以 加 载 这 个 模块 并 使 用 相应 的 C 函数 了 。 例 如 : 


>>> import sample 


>>> 


>>> 


>>> 


samp 
samp 
samp 
samp 
2) 


samp 


pl = 
p2 = 








e.gcd (35, 42) 


e.in_mandel (0,0,500) 


e.in_mandel (2.0,1.0,500) 


e.divide (42,8) 


e.avg([{1,2,3]) 


sample.Point (1,2) 
sample.Point (4,5) 


sample.distance(pl,p2) 
4.242640687119285 


15.1.3 
本 节 中 有 几 个 地 方 需要 进行 讨论 。 第 一 个 问题 是 关于 将 C 和 Python 代码 打包 在 一 起 。 








讨论 

















如 果 要 用 ctypes 来 访问 自己 编译 的 C 代码 ， 得 确保 把 共享 库 放 在 sample.py 模块 可 以 找 


得 到 的 























也 方 。 一 种 可 能 是 将 得 到 的 .so 文件 与 所 支撑 的 Python 代码 放 在 同一 个 目录 中 。 
这 正 是 本 节 给 出 的 解决 方案 中 首先 完成 的 





sample.py 查询 ”file Em, 看 看 自己 被 





安装 到 何 处 ， 然 后 在 同样 的 目录 下 构建 一 个 路 径 指 向 lipsample.so 文件 。 


如 果 要 把 C 库 安装 到 别处 ， 那 么 必须 相应 地 调整 路 径 。 如 果 C 库 已 经 作为 标准 库 安装 
到 你 的 机 器 上 了 ， 那 么 可 以 使 用 ctypes.util.find_library0 函 数 。 示 例如 下 : 


>>> from ctypes.util import find library 





>>> find_library('m') 
"/usr/lib/libm.dylib' 

>>> find_library('pthread') 
'/usr/lib/libpthread.dylib' 
>>> find_library('sample') 
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'/usr/local/lib/libsample.so' 
>> 








再 次 申明 ， 如 果 ctypes 无 法 找到 C 库 则 不 能 继续 工作 。 因 此 ， 需 要 花 几 分 钟 时 间 考 虑 


下 该 如 何 安装 库 。 
旦 知道 了 C 库 的 位 置 ,可 以 使 用 ctypes.cdlLLoadLibrary(0 来 加 载 。 在 解决 方案 中 ，path 











是 


正 





指向 共享 库 的 完整 路 径 ， 而 下 列 语句 则 用 来 加 载 C 库 : 


_mod = ctypes.cdll.LoadLibrary (_path) 


且 成 功 加 载 了 C 库 , 我 们 需要 编写 代码 来 提取 特定 的 符号 并 为 其 附 上 类 型 签名 。 这 
是 由 如 下 代码 完成 的 : 















































在 
示 
等 
据 
码 


# int in mandel (double, double, int) 

in mandel = _mod.in mandel 

in_mandel.argtypes = (ctypes.c_double, ctypes.c_double, ctypes.c_int) 
in_mandel.restype = ctypes.c_int 


这 份 代码 中 ，.argtypes 属性 是 一 个 元 组 ， 其 中 包含 了 函数 的 输入 参数 ， 而 .restype 4 
返回 类 型 。ctypes 中 定义 了 许多 类 型 对 象 (例如 c double, c int, c short, c float 
)， 它 们 用 来 代表 常见 的 C 数据 类 型 。 如 果 想 要 Python 传递 正确 的 参数 类 型 并 对 数 
做 正确 的 转换 ， 那 么 给 值 附 上 类 型 签名 就 是 至 关 重 要 的 了 ( 如果 不 这 么 做 ， 不 仅 代 
不 会 正常 工作 ， 而 且 还 会 使 得 整个 解释 器 进程 朋 溃 )。 

















使 用 ctypes 时 ， 一 个 多 少 有 些 棘 手 的 地 方 在 于 原始 的 C 代码 中 可 能 会 用 到 一 些 惯用 法 ， 


而 


是 


vas 


住 





就 
释 
然 

















它们 在 概念 上 不 能 清晰 地 映射 到 Python 中 。divideO) 函 数 就 是 个 很 好 的 例子 ， 因 为 它 
通过 其 中 一 个 参数 来 返回 值 的 。 尽 管 这 在 C 中 是 非常 常见 的 技术 ,但 放 在 Python 中 
往 就 不 清楚 应 该 如 何 工 作 了 。 例 如 ， 我 们 不 能 直接 像 这 样 做 : 


>>> divide = _mod.divide 











>>> divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(ctypes.c_int) ) 
>>> x = 0 
>>> divide(10, 3, x) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ctypes.ArgumentError: argument 3: <class 'TypeError'>: expected LP_c_int 
instance instead of int 
>>> 


算 这 么 做 行 的 通 ， 也 会 违反 Python 中 整数 是 不 可 变 对 象 的 事实 ， 可 能 会 导致 整个 解 
器 进程 卡 死 在 黑洞 中 。 对 于 涉及 指针 的 参数 ， 通 常 必须 构建 一 个 兼容 的 ctypes 对 象 ， 
后 像 下 面 这 样 传人 : 


>>> x = ctypes.c_int () 















































>>> divide(10, 3, x) 
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3 

>>> x.value 
1 

>>> 


这 里 我 们 创建 了 一 个 ctypes.c_int 对 象 ， 并 把 它 作为 指针 对 象 传递 给 函数 。 与 普通 的 
Python 整数 不 同 ，c_int 对 象 是 可 变 的 。 可 以 根据 需要 通过 .value 属性 来 获取 或 修改 值 。 
对 于 那些 C 调用 约定 (calling convention ) 属于 非 Pythonic ( Pythonic 21E, ANTE 
HE Python 的 方式 来 优雅 的 工作 ) 的 情况 , 通常 都 需要 编写 一 个 小 型 的 包装 函数 来 处 理 。 
在 解决 方案 中 ， 这 个 包装 函数 使 得 divideO) 函 数 用 一 个 元 组 来 返回 两 个 结果 值 : 


# int divide(int, int, int *) 



































_divide = _mod.divide 
_divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(ctypes.c_int)) 
_divide.restype = ctypes.c_int 


def divide(x, y): 
rem = ctypes.c_int() 
quot = _divide (x,y, rem) 
return quot, rem.value 


avgO 函 数 则 带 来 了 全 新 的 挑战 。 底 层 的 C 代码 期 望 接收 一 个 指针 以 及 长 度 来 代表 一 个 
数组 。 但 是 从 Python 的 角度 来 看 ， 我 们 必须 考虑 下 列 问题 : 什么 是 数组 ? 它 是 列表 还 
是 元 组 ” 亦 或 是 array 模块 中 的 array 对 象 ? 是 numpy 中 的 数组 吗 ? 还 是 以 上 都 有 可 能 
We? 在 实践 中 ， 一 个 Python“ 数 组 ”可 能 有 着 许多 不 同 的 形式 ， 而 且 也 许 我 们 会 想 支 
持 这 多 种 可 能 。 

类 DoubleArrayType 展示 了 如 何 处 理 这 种 情况 。 在 这 个 类 中 我 们 定义 了 方法 
from_param()。 这 个 方法 的 任务 就 是 接受 一 个 单独 的 参数 并 将 其 范围 缩小 为 一 个 兼容 的 
ctypes 对 象 ( 在 本 例 中 就 是 指向 ctypes.c_double 的 指针 )。 在 from_param0 中 ， 我 们 可 
以 自由 地 做 任何 想 做 的 事 。 在 我 们 的 解决 方案 中 ， 参 数 的 类 型 名 被 提取 出 来 并 发 送 给 
更 加 具体 的 方法 。 例 如， 如果 传递 的 是 列表 ，, 则 类 型 名 就 是 list, 调用 的 就 是 from_list() 
方法 。 
对 于 列表 和 元 组 ，from list0 方 法 会 执行 转换 到 ctypes 数组 对 象 的 操作 。 这 看 起 来 有 点 
古怪 ,但 下 面 是 将 列表 转换 为 ctypes 数组 的 交互 式 例子 : 


















































>>> nums = [1, 2, 3] 

>>> a = (ctypes.c_double * len(nums) ) (*nums) 

>>> a 

<_main_.c_double Array_3 object at 0x10069cd40> 
>>> a[0] 

1.0 
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>>> a[1] 
2.0 
>>> a[2] 
3.0 
>>> 





对 于 array 对 象 ，from_array() 方 法 会 提取 底层 的 内 存 指针 并 将 其 转换 为 一 个 ctypes 指针 
对 象 。 示 例如 下 : 


>>> import array 


>>> a = array.array('d', [1,2,3]) 


>>> a 
array('d', [1.0, 2.0, 3.0]) 
>>> ptr = a.buffer_info() 
>>> ptr 

4298687200 


>>> ctypes.cast (ptr, ctypes.POINTER(ctypes.c_double) ) 
<_main_.LP_c_double object at 0x10069cd40> 


>>> 


from_ ndarrayO 则 对 numpy 数组 做 了 处 理 。 


通过 定义 DoubleArrayType 类 并 在 avg0 的 类 型 签名 中 使 用 ， 可 以 看 到 ， 函 数 可 接受 多 
种 不 同形 式 的 数组 输入 : 


>>> import sample 


>>> samp 


>>> samp 


>>> import 


>>> samp 


>>> import 


>>> samp 











e 


e. 


e. 


e. 


.avg([1,2,3]) 


avg ( (1,2,3)) 


array 
avg(array.array('d', [1,2,3])) 


numpy 
avg (numpy.array([1.0,2.0,3.0])) 





本 节 的 最 后 部 分 是 展示 如 何 同 简单 的 C 结构 体 打交道 。 对 于 结构 体 来 说 ， 只 用 定义 一 
个 类 ， 并 在 其 中 包含 适当 的 字段 和 类 型 ， 示 例如 下 ， 


class Point (ctypes.Structure) : 





_fields_ = [('x', ctypes.c_double), 


('y', ctypes.c_double) ] 





一 且 定 义 完 成 ， 就 可 以 在 类 型 签名 中 使 用 它 ， 也 可 以 在 需要 实例 化 结构 体 对 象 的 代码 
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中 使 用 。 示 例如 下 : 


>>> pl = sample.Point (1,2) 
>>> p2 = sample.Point (4,5) 


>>> pl.x 


>>> sample.distance(p1,p2) 
4.242640687119285 
>>> 


最 后 再 多 说 几 句 : 如 果 所 有 你 想 做 的 只 是 在 Python 中 访问 几 个 C 函数 ,那么 ctypes 是 
很 有 用 的 库 。 但 是 , 如 果 打 算 访 问 一 个 庞大 的 C 库 , 就 应 该 看 看 其 他 的 方法 , 比如 Swig 
( 见 15.9 节 ) 或 者 Cython (JL 15.10 节 )。 

大 型 库 的 主要 问题 在 于 由 于 ctypes 并 不 是 全 自动 化 处 理 的 ， 我 们 将 不 得 不 花费 大 量 时 
间 来 编写 所 有 的 类 型 签名 ， 就 像 示 例 中 的 那样 。 根 据 库 的 复杂 程度 ， 我 们 可 能 也 不 得 
不 编写 大 量 的 小 型 包装 函数 和 支撑 类 ( 类 似 于 DoubleArrayType )。 此 外 ， 除 非 完 全 理 
解 了 所 有 C 接口 的 底层 细节 ， 包 括 内 存 管 理 和 错误 处 理 ， 和 否则 很 容易 会 让 Python 由 于 
段 错误 、 非 法 访问 或 其 他 类 似 的 错误 而 产生 灾难 性 的 有 骨 演 。 

作为 ctypes 之 外 的 选择 ， 读 者 可 以 去 看 看 CFFI ( http://cffi.readthedocs.org/en/latest )。 
CFFI 提供 了 很 多 相同 的 功能 , 但 使 用 的 是 C 的 语法 ,而 且 支 持 更 多 高 级 的 C 代码 。 在 
写作 本 节 时 ， 相 对 来 说 CFFI 依然 是 一 个 很 新 的 项 目 , 但 对 它 的 使 用 已 经 得 到 了 极 大 的 
增长 。 甚至 有 一 些 关 于 在 今后 的 Python 版 本 中 将 其 纳入 到 Python 标准 库 中 的 讨论 。 
JE, CFFI 绝对 是 值得 去 留意 的 项 目 。 


15.2 编写 简单 的 C 语言 扩展 模块 


15.2.1 问题 
我 们 想 不 依赖 任何 其 他 工具 直接 用 Python 的 扩展 API 编 写 一 个 简单 的 C 语 言 扩展 模块 。 


15.2.2 解决 方案 
对 于 简单 的 C 代码 ， 手 工 创建 一 个 扩展 模块 是 很 简单 直接 的 。 作 为 第 一 步 ， 可 能 要 确 
保 自己 的 C 代码 有 一 个 合适 的 头 文件 。 比 如 : 


/* sample.h */ 

















































































































#include <math.h> 
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extern int gcd(int, int); 

extern int in_mandel(double x0, double y0, int n); 
extern int divide(int a, int b, int *remainder); 
extern double avg (double “a, int n); 


typedef struct Point { 
double x,y; 
} Point; 


extern double distance(Point *pl, Point *p2); 
通常 情况 下 这 个 头 文件 会 对 应 于 一 个 单独 编译 好 的 库 。 带 着 这 个 假设 ， 下 面 是 一 个 C 
语言 扩展 模块 的 样 例 ， 用 来 说 明 编 写 扩展 函数 的 基础 : 


#include "Python.h" 
#include "sample.h" 

















Tr 





/* int gcd(int, int) */ 
static PyObject *py_gcd(PyObject *self, PyObject *args) { 
int x, y, result; 


if (!PyArg ParseTuple(args,"ii", &x, &y)) { 
return NULL; 

} 

result = gcd(x,y); 

return Py BuildValue("i", result); 


/* int in mandel (double, double, int) */ 

static PyObject *py_in mandel (PyObject *self, PyObject *args) { 
double x0, y0; 
int n; 
int result; 


if (!PyArg_ParseTuple(args, "ddi", &x0, &y0, &n)) { 
return NULL; 

} 

result = in_mandel(x0,y0,n); 

return Py BuildValue("i", result); 


/* int divide(int, int, int *) */ 
static PyObject *py divide(PyObject *self, PyObject *args) { 
int a, b, quotient, remainder; 
if (!PyArg ParseTuple(args, "ii", &a, &b)) { 
return NULL; 








C 语言 扩展 619 


} 
quotient = divide(a,b, &remainder) ; 
return Py BuildValue("(ii)", quotient, remainder); 


/* Module method table */ 

static PyMethodDef SampleMethods[] = { 
{"gcd", py_gcd, METH VARARGS, "Greatest common divisor"}, 
{"in_mandel", py_in_mandel, METH _VARARGS, "Mandelbrot test"}, 
{"divide", py_divide, METH_VARARGS, "Integer division"}, 
{ NULL, NULL, 0, NULL} 

hi 


/* Module structure */ 
static struct PyModuleDef samplemodule = { 
PyModuleDef_HEAD_INIT, 


"sample", /* name of module */ 

"A sample module", /* Doc string (may be NULL) */ 

ol, /* Size of per-interpreter state or -1 */ 
SampleMethods /* Method table */ 


}; 


/* Module initialization function */ 
PyMODINIT FUNC 
PyInit_sample(void) { 

return PyModule Create (&samplemodule) ; 

















为 了 构建 扩展 模块 ， 需 要 创建 一 个 setup.py 文件 ， 看 起 来 是 这 样 的 : 


# setup.py 
from distutils.core import setup, Extension 


setup (name='sample', 
ext_modules=[ 
Extension('sample', 
{'pysample.c'], 
include dirs = ['/some/dir'], 
define macros = [('FOO','1')], 
undef_macros = ['BAR'], 
library dirs = ['/usr/local/lib'], 
libraries = ['sample'] 


) 
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现在 ， 要 构建 出 目标 库 ， 只 需要 用 python3 buildlib.py build ext --inplace。 示 例如 下 : 


bash % python3 setup.py build_ext --inplace 

running build_ext 

building 'sample' extension 

gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict-prototypes 
-I/usr/local/include/python3.3m -c pysample.c 
-o build/temp.macosx-10.6-x86 64-3.3/pysample.o 

gcc -bundle -undefined dynamic lookup 

build/temp.macosx-10.6-x86 64-3.3/pysample.o \ 
-L/usr/local/lib -lsample -o sample.so 

bash % 


如 上 所 示 ， 这 样 就 创建 了 一 个 名 为 sample.so 的 共享 库 。 编 译 结束 后 ， 应 该 就 可 以 开始 
将 其 当做 一 个 Python 模块 来 导入 了 : 


>>> import sample 























>>> sample.gcd(35, 42) 


>>> sample.in_mandel(0, 0, 500) 


>>> sample.in_mandel(2.0, 1.0, 500) 





>>> sample.divide(42, 8) 
(5, 2) 


如 果 打 算 在 Windows 上 尝试 这 些 步 又 ， 可 能 需要 花 点 时 间 设 置 构建 环境 ， 以 便 正 确 生 
成 扩展 模块 。Python 的 二 进 制 发 行 版 通常 是 用 微软 的 Visual Studio 来 构建 的 。 要 让 扩 
展 模块 正常 工作 ， 我 们 可 能 也 要 用 相同 或 兼容 的 工具 来 编译 。 具 体 请 参见 Python 的 有 
关 文 档 (http://docs.python.org/3/extending/windows.html ). 


15.2.3 讨论 

在 尝试 手工 编写 任何 类 型 的 扩展 前 ， 查 阅 Python 文档 中 的 “扩展 和 内 骨 Python 解释 器 ” 
( Extending and Embedding the Python Interpreter ) 一 节 是 至 关 重 要 的 。Python 的 C 语 言 
扩展 API 很 庞大 ， 在 这 里 重复 所 有 的 API 是 不 现实 的 。 但 是 ， 我 们 可 以 就 最 重要 的 部 
分 在 此 讨论 。 

首先 ， 在 扩展 模块 中 编写 的 函数 通常 都 有 着 如 下 的 共同 原型 : 


static PyObject *py_func (PyObject *self, PyObject *args) { 
































































































































} 
PyObject 是 一 个 C 数据 类 型 ， 表 示 任 意 的 Python 对 象 。 从 很 高 的 层次 来 看 ， 一 个 扩展 
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函数 就 是 一 个 C 因数 ， 它 接受 一 组 Python 对 象 (在 PyObject *args 中 ) 并 返回 一 个 新 
的 Python 对 象 作为 结果 。 对 于 简单 的 扩展 函数 来 说 ， 函 数 的 self 参数 是 用 不 到 的 ,但 
是 当 想 在 C 中 定义 新 的 类 或 对 象 类 型 时 就 会 派 上 用 场 了 (例如 ， 如 果 扩 展 函 数 是 类 的 
一 个 方法 ， 那 么 saf 就 会 用 来 表示 对 象 实例 )。 


PyArg_ParseTuple() 函 数 用 来 将 值 从 Python 转换 为 C 语言 中 的 表示 。 作为 输入 , 它 接受 
一 个 格式 化 字符 串 用 来 表示 所 需 的 值 类 型 ， 例 如 “i” 表 示 整 数 ， 而 “d” 表 示 double 
型 浮 点 数 。 此 外 ， 它 还 接受 C 变量 的 地 址 作为 参数 ， 用 来 放置 转换 后 的 结果 。 
PyArg_ParseTuple0 会 对 参数 的 数量 和 类 型 做 许多 检查 。 如 果 在 格式 化 字符 串 中 发 现 有 
任何 不 匹配 的 项 ， 则 会 产生 一 个 异常 并 返回 NULL。 通 过 对 参数 的 检查 以 及 返回 NULL， 
在 调用 端 就 会 产生 适当 的 异常 了 。 

函数 Py Buildvalue0 用 来 从 C 数据 类 型 创建 出 对 应 的 Python 对 象 。 它 也 接受 一 个 格式 
化 代码 用 来 表示 所 需 的 类 型 。 在 扩展 函数 中 ， 它 用 来 将 结果 返回 给 Python. 
Py_Buildvalue0 的 一 个 特性 是 它 可 以 构建 类 型 更 加 复杂 的 对 象 ， 比 如 元 组 和 字典 。 在 针 
对 py _divide0 的 代码 中 , 我 们 已 经 展示 了 一 个 返回 元 组 的 例子 。 但 是 , 下 面 还 有 一 些 更 
多 的 示例 : 







































































return Py BuildValue("i", 34); // Return an integer 

return Py BuildValue("d", 3.4); // Return a double 

return Py BuildValue("s", "Hello"); // Null-terminated UTF-8 string 
(> 


return Py BuildValue("(ii)", 3, 4); // Tuple (3, 4) 


在 任何 扩展 模块 代码 的 底部 ， 我 们 都 会 找到 一 个 像 示 例 中 的 SampleMethods 这 样 的 函 
数 表 。 这 张 表 列 出 了 C 函数 、 在 Python 中 所 用 的 名 称 以 及 文档 字符 串 。 所 有 的 模块 都 
需要 指定 一 个 这 样 的 表 ， 它 会 在 模块 初始 化 时 用 到 。 

Ha, PAA PyInit_sampleO 是 模块 的 初始 化 函数 ， 当 模块 首次 导入 时 会 调用 执行 。 它 的 
主要 工作 就 是 把 模块 对 象 注册 到 解释 右 中 。 

作为 最 后 的 说 明 ， 必 须要 强调 的 是 ， 关 于 用 C 因数 来 扩展 Python， 还 有 相当 多 的 内 容 
没有 在 这 里 给 出 (事实 上 ，Python 的 C API 中 包含 了 超过 500 个 函数 )。 你 应 该 把 本 节 
当做 入 门 的 踏 脚 石 。 要 完成 更 多 功能 ,可 以 从 函数 PyArg ParseTuple()#il Py_BuildValue() 
的 文档 开始 ， 然 后 从 那儿 开始 扩展 。 
































15.3 ”编写 一 个 可 操作 数组 的 扩展 函数 


15.3.1 问题 
我 们 想 编写 一 个 C 扩展 函数 来 操作 数组 型 数据 ， 数 组 可 能 会 通过 array 模块 或 NumPy 
这 样 的 库 来 创建 。 但 是 ， 我 们 想 让 自己 的 函数 变 得 通用 ， 而 不 必 具 体 于 任何 一 个 创建 
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数组 的 库 。 
15.3.2 ”解决 方案 








要 以 可 移植 的 方式 来 接收 和 处 理 数组 ， 应 该 编写 使 用 了 Buffer Protocol ( http://docs. 























python.org/3/c-api/buffer.html ) 的 代码 。 下 面 是 一 个 手写 的 C 扩展 函数 示例 ， 它 接受 妆 


组 数据 并 调用 本 章 介 绍 部 分 给 出 的 avg(double *buf, int len) KIX: 


/* Call double avg(double *, int) */ 

static PyObject *py_avg(PyObject *self, PyObject *args) { 
PyObject *bufobj; 
Py_buffer view; 





double result; 

/* Get the passed Python object */ 

if (!PyArg ParseTuple(args, "O", &bufobj)) { 
return NULL; 


/* Attempt to extract buffer information from it */ 
if (PyObject_GetBuffer(bufobj, &view, 
PyBUF_ANY_CONTIGUOUS | PyBUF_FORMAT) == -1) { 
return NULL; 
} 


if (view.ndim != 1) { 


PyErr_SetString(PyExc_TypeError, "Expected a l-dimensional array"); 


PyBuffer_Release (&view) ; 
return NULL; 


/* Check the type of items in the array */ 
if (strcmp(view.format,"d") != 0) { 


PyErr SetString(PyExc_TypeError, "Expected an array of doubles"); 


PyBuffer_Release (&view) ; 
return NULL; 


/* Pass the raw buffer and size to the C function */ 


result = avg(view.buf, view.shape[0]); 


/* Indicate we're done working with the buffer */ 
PyBuffer_ Release (&view) ; 
return Py BuildValue("d", result); 








下 面 的 示例 展示 了 这 个 扩展 函数 是 如 何 工作 的 : 
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>>> import array 
>>> avg(array.array('d', [1,2,3])) 


>>> import numpy 

>>> avg(numpy.array([1.0,2.0,3.0])) 
2.0 

>>> avg([{1,2,3]) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: 'list' does not support the buffer interface 
>>> avg(b'Hello') 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: Expected an array of doubles 
>>> a = numpy.array([[1.,2.,3.],[4.,5.,6.]]) 
>>> avg (a[:,2]) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: ndarray is not contiguous 
>>> sample.avg (a) 

Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

TypeError: Expected a 1-dimensional array 





>>> sample.avg(a[0]) 
2.0 
>>> 


15.3.3 讨论 

将 数组 对 象 传递 给 C 函数 可 能 是 在 编写 扩展 函数 中 最 常 遇 到 的 情况 之 一 了 。 从 图 像 处 
理 到 科学 计算 领域 ， 有 大 量 的 Python 应 用 程序 都 依赖 于 对 数组 的 高 效 处 理 。 通 过 编写 
可 以 接受 并 操作 数组 的 代码 ， 就 可 以 编写 自 定 义 的 代码 来 很 好 地 应 用 到 这 些 应 用 之 上 ， 
而 不 是 鼓 的 出 某 种 自 定 义 的 解决 方案 只 能 用 在 自己 的 代码 中 。 

示例 代码 的 核心 就 在 PyBuffer_ GetBufferO 函 数 上 。 任 意 给 定 一 个 Python 对 象 ， 该 函数 
会 尝试 获取 有 关 对 象 底层 内 存 表示 的 相关 信息 。 如 果 无 法 做 到 这 点 一 大 部 分 普通 的 
Python 对 象 都 属于 这 种 情况 ， 则 会 产生 一 个 异常 并 返回 -1。 传 给 PyBuffer_GetBuffer() 
的 特殊 标记 进一步 提供 了 所 请 求 的 内 存 缓 冲 区 的 类 型 。 例 如 ，PyBUF ANY 
CONTIGUOUS 表示 请 求 的 是 一 段 连续 的 内 存 。 

针对 数组 、 字 节 串 以 及 其 他 类 似 的 对 象 ， 结 构 体 Py_buffer 中 会 保存 有 关 底 层 内 存 的 信 
息 。 这 包括 一 个 指向 内 存 块 的 指针 、 总 内 存 大 小 、 数 组 中 每 个 元 素 的 大 小 、 格 式 以 及 
其 它 细 节 。 下 面 是 这 个 结构 体 的 定义 : 


typedef struct bufferinfo { 






















































































void *buf; /* Pointer to buffer memory */ 
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PyObject *obj; /* Python object that is the owner */ 


Py ssize t len; /* Total size in bytes */ 
Py_ssize t itemsize; /* Size in bytes of a single item */ 
int readonly; /* Read-only access flag */ 
int ndim; /* Number of dimensions */ 
char *format; /* struct code of a single item */ 
Py_ssize t *shape; /* Array containing dimensions */ 
Py_ssize t *strides; /* Array containing strides */ 
Py_ssize t *suboffsets; /* Array containing suboffsets */ 

} Py_buffer; 








在 本 节 中 ， 我 们 只 考虑 接收 一 个 内 存 连 续 的 double 型 浮 点 数 数组 。 要 检查 数组 元 素 是 
否 是 double 型 的 ， 可 以 检查 format 属性 的 格式 化 字符 串 是 否 为 “d”。 这 个 格式 化 字符 
串 也 是 标准 库 中 struct 模块 用 来 编码 二 进 制 值 时 所 用 的 。 一 般 来 说 ，format 可 以 是 任意 
一 种 同 struct 模块 相 兼 容 的 格式 化 字符 串 。 如 果 数 组 中 包含 C 结构 体 , 那么 这 个 格式 化 
字符 串 也 可 能 会 包含 多 个 类 型 代码 。 

一 旦 我 们 验证 了 底层 缓冲 区 的 信息 ,我 们 只 需 简单 地 将 其 传 给 C 函数 (示例 中 为 avg0 
函数 )， 则 它 会 被 当做 一 个 普通 的 C 数组 来 对 待 。 这 么 做 的 实践 意义 在 于 不 用 考虑 数组 
是 什么 类 型 ， 也 不 必 考 虑 它 是 由 什么 库 创 建 出 来 的 。 这 就 是 为 什么 我 们 的 函数 既 可 以 
同 array 模块 也 可 以 同 numpy 库 创 建 出 的 数组 一 起 工作 的 原因 。 

在 返回 最 终结 果 前 ， 底 层 的 缓冲 区 必须 通过 PyBuffer Release0 来 释放 。 我 们 需要 通过 
这 个 步骤 来 恰当 地 管理 对 象 的 引用 计数 。 

再 次 申明 ， 本 节 只 展示 了 一 小 段 接收 数组 的 代码 。 如 果 要 同 数组 打交道 ， 则 可 能 会 遇 
到 多 维 数组 、 不 同 的 数据 类 型 以 及 更 多 需要 学 习 的 技术 。 确 保 去 查看 官方 文档 
( http://docs.python.org/3/c-api/buffer.html ) 以 获得 更 多 的 细节 。 

如 果 需 要 编写 许多 涉及 数组 处 理 的 C 扩展 函数 , 可 能 会 发 现 以 Cython 来 实现 这 些 代码 
会 更 容易 些 。 具 体 请 参见 15.11 市 。 



















































































































































































15.4 在 C 扩展 模块 中 管理 不 透明 指针 


15.4.1 问题 

我 们 有 一 个 扩展 模块 需要 处 理 指向 C 结构 体 的 指针 ， 但 是 不 想 把 结构 体 的 任何 内 部 细 
节 烘 露 给 Python。 

15.4.2 ”解决 方案 

不 透明 数据 结构 很 容易 通过 将 它们 包装 进 一 个 capsule 对 象 中 来 处 理 。 考 虑 下 面 的 代码 
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片段 : 


typedef struct Point { 
double x,y; 
} Point; 


extern double distance(Point *pl, Point *p2); 


这 里 是 一 个 扩展 代码 的 示例 ， 其 中 使 用 了 capsule 对 象 来 对 Point 结构 体 和 distance) K 
数 进行 包装 : 
/* Destructor function for points */ 


static void del Point (PyObject *obj) { 
free (PyCapsule GetPointer (obj, "Point")); 





/* Utility functions */ 
static Point *PyPoint_AsPoint (PyObject *obj) { 
return (Point *) PyCapsule GetPointer(obj, "Point"); 


static PyObject *PyPoint_FromPoint (Point *p, int must_free) { 
return PyCapsule New(p, "Point", must free ? del Point : NULL); 


/* Create a new Point object */ 
static PyObject *py Point (PyObject *self, PyObject *args) { 
Point *p; 
double x,y; 
if (!PyArg_ParseTuple (args, "dd", &x,&y)) { 
return NULL; 
} 





p= (Point *) malloc (sizeof (Point) ); 
p->x = x; 
p--y = y; 


return PyPoint_FromPoint (p, 1); 


static PyObject *py distance (PyObject *self, PyObject *args) { 
Point *pl, *p2; 
PyObject *py pl, *py p2; 
double result; 


if (!PyArg_ParseTuple(args,"00",&py pl, &py_p2)) { 
return NULL; 
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下 面 让 我 们 从 Python 中 来 使 用 这 些 函 数 : 


15 


if (!(pl = PyPoint_AsPoint (py_pl))) { 
return NULL; 

} 

if (!(p2 = PyPoint_AsPoint (py_p2))) { 
return NULL; 

} 

result = distance(pl,p2); 

return Py BuildValue("d", result); 

} 





>>> import sample 

>>> pl = sample.Point (2,3) 

>>> p2 = sample.Point (4,5) 

>>> pl 

<capsule object "Point" at 0x1004ea330> 
>>> p2 

<capsule object "Point" at 0x1005d1ldb0> 
>>> sample.distance(p1,p2) 
2.8284271247461903 

>>> 


4.3 讨论 


capsule 对 象 和 C 语言 中 的 void 指针 很 相似 。capsule 对 象 内 部 持 有 一 个 泛 型 指针 以 及 
一 个 标识 名 称 。 可 以 通过 PyCapsule_New0 〇 函数 来 轻松 创建 出 capsule 对 象 。 此 外 ， 可 
以 在 capsule 对 象 上 关联 一 个 可 选 的 析 构 函数 ， 当 capsule 对 象 被 垃圾 收集 机 制 回收 时 


可 有 








HOR 释放 底层 的 内 存 空 间 。 














要 提取 出 包含 在 capsule 对 象 中 的 指针 ， 可 以 通过 函数 PyCapsule_ GetPointer0 来 完成 ， 


只 要 指定 名 称 即 可 。 如 果 提 供 








么 会 产生 一 个 异常 并 返回 NULL。 
本 节 中 我 们 编写 了 一 对 功能 函数 PyPoint_FromPoint()#il PyPoint_AsPoint(), 用 来 处 理 从 
capsule 对 象 中 创建 和 回 退 Point 实例 。 在 所 有 的 扩展 函数 中 ， 我 们 都 会 使 用 这 一 对 函数 
而 不 是 直接 同 capsule 对 象 打 交道 。 这 个 设计 决策 使 得 将 来 对 包装 Point 对 象 的 修改 会 


变 得 更 容易 些 。 例 如 ， 如 果 稍 后 决定 使 用 其 他 的 机 





























修改 这 两 个 函数 即 可 。 

















的 名 称 与 capsule 对 象 不 匹配 或 者 出 现 了 其 他 的 错误 ， 那 








出 而 不 是 capsule 对 象 的 话 ， 只 需要 


在 使 用 capsule 对 象 时 ， 一 个 比较 环 手 的 地 方 在 于 需要 考虑 垃圾 收集 和 内 存 管 理 。 函 数 








PyPoint_FromPoint() 接 受 一 个 must_free 参数 ， 表 示 当 capsule 对 象 被 销毁 时 ， 底 层 的 Point 


结构 体 所 占有 
问题 会 很 难处 理 ( PiU, tL 

















目的 内 存 是 否 也 要 被 回收 。 当 遇 到 这 样 的 C 代码 时 , 对 象 的 归属 (ownership ) 
F Point 结构 体 认 入 到 了 另 一 个 更 大 的 数据 结构 中 ， 而 那个 
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结构 体 是 单独 管理 的 )。 与 其 把 宝 都 押 在 垃圾 收集 上 ， 这 个 额外 的 参数 使 得 控制 权重 新 
回 到 程序 员 手 上 。 应 该 要 注意 的 是 , 已 经 在 capsule 对 象 上 关联 的 析 构 函数 也 可 以 通过 
使 用 PyCapsule_SetDestructorO 函 数 来 修改 。 


当面 对 某 些 涉及 结构 体 的 C 代码 时 ，capsules 是 一 种 明智 的 解决 方案 。 比 如 说 ， 有 时 候 
我 们 并 不 在 乎 把 结构 体 的 细节 暴露 出 来 ， 或 者 会 将 其 转换 为 一 个 全 功能 的 扩展 类 型 。 
有 了 capsule， 我 们 可 以 为 结构 体 加 上 一 个 轻 量 级 的 包装 层 ， 这 样 可 以 轻松 将 其 传递 给 
其 他 的 扩展 函数 。 























15.5 在 扩展 模块 中 定义 并 导出 API 


15.5.1 问题 


我 们 有 一 个 C 扩展 模块 在 内 部 定义 了 各 种 有 用 的 函数 ， 现 在 想 将 它们 导出 作为 公有 的 C 
API 在 别处 使 用 。 我 们 想 把 这 些 函 数 用 在 其 他 的 扩展 模块 中 , 但 是 不 知道 该 如 何 将 它们 
链接 在 一 起 ， 而 用 C 编译 右 / 链 接 屁 来 做 似乎 又 显 得 过 于 复杂 (或 者 根本 不 可 能 做 到 )。 


155.2 ”解决 方案 


本 节 把 重点 放 在 处 理 Point 对 象 的 代码 上 , 代码 在 15.4 节 中 已 给 出 。 如果 回顾 一 下 , 这 
里 的 C 代 码 中 包含 了 一 些 实用 的 函数 ， 比 如 : 
/* Destructor function for points */ 
static void del Point (PyObject *obj) { 
free (PyCapsule GetPointer (obj, "Point")); 
} 










































































/* Utility functions */ 
static Point *PyPoint_AsPoint (PyObject *obj) { 

return (Point *) PyCapsule GetPointer(obj, "Point"); 
} 


static PyObject *PyPoint_FromPoint (Point *p, int must_free) { 
return PyCapsule New(p, "Point", must free ? del Point : NULL); 
} 











FUE AY [a] ete Uap eK PyPoint AsPoint0 和 PyPoint FromPointO 作 为 API 导出 ,让 
其 他 的 扩展 模块 可 以 使 用 和 链接 ( 例如 ,如 果 有 其 他 的 扩展 模块 也 想 使 用 包装 过 的 Point 
对 象 )。 


要 解决 这 个 问题 ， 首 先 为 示例 扩展 模块 引入 一 个 全 新 的 头 文件 pysample.h。 将 下 列 代码 
输入 到 这 个 头 文 件 中 : 
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这 
这 


这 
修 


/* pysample.h */ 
#include "Python.h" 
#include "sample.h" 
#ifdef _ cplusplus 
extern "C" { 

#endif 


/* Public API Table */ 
typedef struct { 
Point *(*aspoint) (PyObject *); 
PyObject *(*frompoint) (Point *, int); 
} _PointAPIMethods; 


#ifndef PYSAMPLE MODULE 
/* Method table in external module */ 
static PointAPIMethods * point api = 0; 


/* Import the API table from sample */ 

static int import_sample(void) { 
_point_api = (_PointAPIMethods *) PyCapsule_Import ("sample._point_api", 0) 
return ( point api != NULL) ? 1: 0; 


/* Macros to implement the programming interface */ 
#define PyPoint_AsPoint (obj) (_point_api->aspoint) (obj) 
#define PyPoint_FromPoint (obj) (_point_api->frompoint) (obj) 
#endif 


#ifdef _ cplusplus 
} 
#endif 


里 最 重要 的 特性 就 是 函数 指针 表 _PointAPIMethods。 它 会 在 导出 模块 中 
样 在 导入 模块 中 就 可 以 找到 它 。 
改 原来 的 扩展 模块 ， 增 加 这 个 函数 指针 表 并 像 下 面 这 样 进行 导出 : 


/* pysample.c */ 








#include "Python.h" 
#define PYSAMPLE MODULE 
#include "pysample.h" 


/* Destructor function for points */ 
static void del Point (PyObject *obj) { 


i 


站 人 一 > 


进行 初 


始 化 ， 
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printf ("Deleting point\n"); 
free (PyCapsule GetPointer (obj, "Point")); 


/* Utility functions */ 
static Point *PyPoint_AsPoint (PyObject *obj) { 
return (Point *) PyCapsule GetPointer(obj, "Point"); 


static PyObject *PyPoint_FromPoint (Point *p, int free) { 
return PyCapsule New(p, "Point", free ? del_Point : NULL); 





static PointAPIMethods point api = { 
PyPoint_AsPoint, 
PyPoint_FromPoint 

}; 


/* Module initialization function */ 
PyMODINIT FUNC 
PyInit_sample(void) { 

PyObject *m; 

PyObject *py_point_api; 


m = PyModule Create (&samplemodule) ; 
if (m == NULL) 
return NULL; 


/* Add the Point C API functions */ 
py_point_api = PyCapsule New((void *) & point_api, "sample. point_api", NULL); 
if (py_point_api) { 

PyModule AddObject (m, " point api", py point api); 

} 


return m; 





最 后 ， 下 面 这 个 示例 是 一 个 新 的 扩展 模块 ， 它 会 加 载 并 使 用 这 些 API PRR: 


/* ptexample.c */ 





/* Include the header associated with the other module */ 


#include "pysample.h" 


/* An extension function that uses the exported API */ 
static PyObject *print_point (PyObject *self, PyObject *args) { 
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PyObject *obj; 

Point *p; 

if (!PyArg_ParseTuple(args,"0", &obj)) { 
return NULL; 


/* Note: This is defined in a different module */ 
p = PyPoint_AsPoint (obj); 
if (!p) { 
return NULL; 
} 
printf ("Sf Sf\n", p->x, p->y); 
return Py BuildValue(""); 


static PyMethodDef PtExampleMethods[] = { 
{"print_point", print_point, METH VARARGS, "output a point"}, 
{ NULL, NULL, 0, NULL} 

}; 


static struct PyModuleDef ptexamplemodule = { 
PyModuleDef_HEAD_INIT, 


"ptexample", /* name of module */ 

"A module that imports an API", /* Doc string (may be NULL) */ 

aL) /* Size of per-interpreter state or -1 */ 
PtExampleMethods /* Method table */ 


hi 


/* Module initialization function */ 
PyMODINIT_FUNC 
PyInit_ptexample(void) { 

PyObject *m; 


m = PyModule Create (&ptexamplemodule) ; 
if (m == NULL) 
return NULL; 
/* Import sample, loading its API functions */ 


if (!import_sample()) { 
return NULL; 


return m; 


当 编 译 这 个 新 的 模块 时 ， 我 们 甚至 不 必 操 心 去 链接 任何 库 或 者 其 他 模块 中 的 代码 。 只 
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# set 


用 创建 一 个 简单 的 setup.py 文件 即 可 : 


up.py 


from distutils.core import setup, Extension 


setup 


) 


(name='ptexample', 
ext_modules=[ 
Extension('ptexample', 
{'ptexample.c'], 
include dirs = [], 


) 


# May need pysample.h directory 





如 果 一 切 顺 利 ， 就 会 发 现 我 们 的 新 扩展 模块 可 以 完美 地 同 定义 在 其 他 模块 中 的 C API 
一 起 工作 了 : 


>>> il 


mport sample 


>>> pl = sample.Point (2, 3) 


>>> pl 
<capsule object "Point *" at 0x1004ea330> 


>>> il 


mport ptexample 


>>> ptexample.print_point (p1) 


2.000 
>>> 


000 3.000000 


15.5.3 ”讨论 
本 节 所 讨论 的 技术 依赖 于 一 个 事实 ， 即 ，capsule 对 象 可 以 持 有 一 个 指针 ， 该 指针 可 指 
向 任何 所 希望 的 对 象 。 在 这 种 情况 下 ， 定 义 capsule 对 象 的 模块 会 去 填充 函数 指针 结构 


体 ， 创 建 一 个 capsule 对 象 并 让 它 指向 





RAH 





中 (BH, sample. point api ). 





这 个 函数 指针 表 ， 最 后 将 capsule 对 象 保 存在 模 














当 导入 模块 后 ， 其 他 的 模块 就 可 以 通过 编程 的 方式 来 获取 这 个 属性 并 提取 出 底层 的 指针 。 实 


际 上 ，Python 提供 


























了 实用 函数 PyCapsule Import0， 它 可 以 为 我 们 完成 所 有 的 步骤 。 我 们 只 
用 给 它 提 供 一 个 属性 名 (例如 sample. point api )， 它 就 会 找到 capsule 对 象 并 提取 出 指针 。 


这 里 用 到 了 一 些 C 编程 技巧 使 得 导出 的 函数 在 其 他 模块 中 看 起 来 也 并 无 不 同 之 处 。 在 
文件 pysample.h 中 ， 指 针 _point_api 用 来 指向 在 导出 模块 中 初始 化 的 函数 指针 表 。 用 
import_ sampleO 王 数 来 执行 导入 capsule 对 象 以 及 初始 化 指针 _point api 的 任务 。 在 使 用 
模块 中 的 其 他 函数 之 前 ， 必 须 先 调 用 import sample0。 通 常 这 会 在 模块 初始 化 的 时 候 完 
成 调用 。 最 后 ， 还 定义 了 一 组 C 预 处 理 需 宏 以 透明 的 方式 通过 男 数 指针 来 引用 API eK 
数 。 用 户 只 需要 使 用 原来 的 函数 名 即 可 ， 并 不 需要 知道 底层 是 通过 这 些 宏 经 过 额外 的 
一 层 间 接 关 系 来 引用 函数 的 。 
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最 后 ， 为 什么 要 用 这 项 技术 来 将 模块 链接 在 一 起 还 有 男 一 个 重要 的 原因 一 一 这 样 做 更 
加 简单 而 且 保 证 了 模块 间 层 次 清晰 、 耦 合 度 低 。 如 果 不 想 使 用 本 节 展 示 的 技术 ， 也 可 
以 利用 共享 库 和 动态 加 载 器 的 功能 来 做 交叉 链接 。 比 如 ， 把 所 有 公用 的 API 函数 放 在 
共享 库 中 ， 并 确保 所 有 的 扩展 模块 都 来 链接 这 个 共享 库 。 是 的 ， 这 么 做 可 行 ， 但 是 在 
大 型 系统 中 这 么 操作 会 非常 繁琐 。 本 质 上 ， 本 节 已 经 揭示 了 所 有 的 魔法 ， 人 允许 模块 通 
过 Python 的 普通 导入 机 制 以 及 极 少 数 的 capsule 调用 实现 对 其 他 模块 的 链接 ,至 于 模块 
的 编译 问题 ， 只 需要 担心 头 文件 而 不 是 共享 库 的 实现 细节 。 


更 多 有 关 为 扩展 模块 提供 C API 的 信息 可 以 在 Python 文档 〈http:/docs.python.org/3/ 
extending/extending.html ) 中 找到 。 






































15.6 KC 中 调用 Python 


15.6.1 问题 

我 们 想 以 安全 的 方式 从 C 中 执行 一 个 Python 的 可 调用 对 象 , 并 将 结果 返回 到 C 中 。 比 
方 说 ， 也 许 你 正在 编写 C 代码 ， 希 望 把 一 个 Python 函数 当做 回调 来 使 用 。 

15.6.2 ”解决 方案 


在 C 中 调用 Python 基本 上 是 简单 明了 的 事 ， 但 是 有 几 个 地 方 需要 用 到 一 些 技巧 。 下 面 
的 C 代码 作为 一 个 示例 展示 了 如 何 安全 的 从 C 中 调用 Python : 


#include <Python.h> 


















































/* Execute func(x,y) in the Python interpreter. The 
arguments and return result of the function must 
be Python floats */ 


double call_func(PyObject *func, double x, double y) { 
PyObject *args; 
PyObject *kwargs; 
PyObject *result = 0; 
double retval; 


/* Make sure we own the GIL */ 
PyGILState_ STATE state = PyGILState Ensure(); 


/* Verify that func is a proper callable */ 

if (!PyCallable Check(func)) { 
fprintf(stderr,"call_func: expected a callable\n"); 
goto fail; 
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} 

/* Build arguments */ 

args = Py BuildValue("(dd)", x, y); 
kwargs = NULL; 


/* Call the function */ 

result = PyObject_Call(func, args, kwargs) ; 
Py_DECREF (args) ; 

Py_XDECREF (kwargs) ; 


/* Check for Python exceptions (if any) */ 
if (PyErr Occurred()) { 

PyErr Print (); 

goto fail; 


/* Verify the result is a float object */ 

if (!PyFloat_Check(result)) { 
fprintf (stderr, "call func: callable didn't return a float\n"); 
goto fail; 


/* Create the return value */ 
retval = PyFloat_AsDouble (result); 
Py DECREF (result); 


/* Restore previous GIL state and return */ 
PyGILState_Release (state); 
return retval; 


fail: 

Py_XDECREF (result); 

PyGILState_Release (state); 

abort (); // Change to something more appropriate 
} 


要 使 用 这 个 函数 ， 需 要 将 一 个 已 存在 的 Python 可 调用 对 象 的 引用 传递 进来 。 








有 许多 种 








方法 可 以 实现 ， 比 如 把 一 个 可 调用 对 象 传递 到 一 个 扩展 模块 中 ， 或 者 直接 编 
从 已 有 的 模块 中 提取 出 相应 的 符号 。 


下 面 这 个 简单 的 例子 展示 了 从 一 个 嵌入 的 Python 解释 器 中 调用 函数 : 


#include <Python.h> 























/* Definition of call func() same as above */ 


BC 代码 
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/* Load a symbol from a module */ 
PyObject *import_name(const char *modname, const char *symbol) { 
PyObject *u_name, *module; 
u_name = PyUnicode_FromString (modname) ; 
module = PyImport_Import (u_name) ; 
Py_DECREF (u_name) ; 
return PyObject_GetAttrString(module, symbol); 


/* Simple embedding example */ 
int main() { 

PyObject *pow_func; 

double x; 


Py_Initialize(); 
/* Get a reference to the math.pow function */ 


pow_func = import_name("math", "pow") ; 


/* Call it using our call_func() code */ 
for (x = 0.0; x < 10.0; x t= 0.1) { 
printf ("$0.2f %0.2f\n", x, call_func(pow_func,x,2.0)); 
} 
/* Done */ 
Py_DECREF (pow_func) ; 
Py_Finalize(); 
return 0; 


} 


要 构建 这 个 最 新 的 示例 ， 需 要 编译 上 述 C 代码 并 同 Python 解释 需 链 接 。 这 里 有 一 个 
Makefile 告诉 我 们 如 何 去 做 ( 可 能 需要 在 自己 的 机 如 上 做 些 调整 ) 


all:: 








cc -g embed.c -I/usr/local/include/python3.3m \ 
-L/usr/local/lib/python3.3/config-3.3m -lpython3.3m 


编译 代码 并 运行 得 到 的 可 执行 文件 ， 应 该 会 产生 类 似 这 样 的 输出 : 
































下 面 的 示例 稍 有 不 同 ， 一 个 扩展 函数 接收 一 个 Python 可 调用 对 象 以 及 一 些 参数 ， 并 将 
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它们 传递 给 call funcO 用 于 测试 : 


/* Extension function for testing the C-Python callback */ 
PyObject *py_call_func(PyObject *self, PyObject *args) { 

PyObject *func; 

double x, y, result; 

if (!PyArg_ParseTuple(args,"Odd", &func,&x,&y)) { 

return NULL; 

} 

result = call_func(func, x, y); 

return Py BuildValue("d", result); 
} 


使 用 这 个 扩展 函数 ， 可 以 像 下 面 这 样 测试 其 功能 : 


>>> import sample 
>>> def add(x,y): 
return xty 


>>> sample.call_func (add, 3, 4) 
7.0 
>>> 


15.6.3 讨论 

如 果 要 从 C 中 调用 Python, ,需要 记 住 的 最 重要 的 事情 就 是 此 时 C 会 获得 程序 的 控制 权 。 
也 就 是 说 ， 创 建 参 数 、 调 用 Python 函数 、 检 查 是 否 有 异常 、 检 查 类 型 、 获 取 返 回 值 等 
责任 都 落 在 了 C 的 身上 。 

首先 ， 很 重要 的 一 点 是 我 们 得 有 一 个 Python 对 象 ， 用 来 代表 打算 去 调用 的 那个 可 调用 
对 象 。 这 可 以 是 函数 、 类 、 方 法 、 内 建 方法 或 者 任何 实现 了 _call 0 操作 的 对 象 。 要 
验证 对 象 是 否 是 可 调用 的 ， 可 以 使 用 下 列 代码 片段 中 给 出 的 PyCallable_Check() KZ: 


double call_func(PyObject *func, double x, double y) { 


























/* Verify that func is a proper callable */ 

if (!PyCallable Check (func)) { 
fprintf (stderr, "call func: expected a callable\n"); 
goto fail; 

} 





顺便 说 一 句 ， 我 们 需要 仔细 学 习 如 何在 C 代码 中 处理 错误 。 一 般 来 说 ， 我 们 没 法 直接 
抛 出 一 个 Python 异常 。 相 反 ， 错 误 需 要 按照 C 语言 的 方式 来 处 理 。 在 给 出 的 解决 方案 
中 ， 我 们 使 用 goto 来 将 控制 流转 移 到 一 个 错误 处 理 块 中 ， 并 在 那里 调用 abort() PARK. 
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这 会 导致 整个 程序 退出 ， 但 是 在 现实 环境 中 可 能 需要 做 些 更 加 优雅 的 处 理 (例如 返回 
一 个 状态 码 ) 请 记 住 , 此 时 是 C 代码 在 接管 控制 流 , 因此 抛 出 异常 是 无 法 同 C 兼容 的 。 
错误 处 理 必 须 由 构建 到 程序 中 的 组 件 来 完成 。 

调用 一 个 函数 相对 来 说 就 简单 直接 多 了 一 一 只 需要 调用 PyObject_Call0, 提供 给 它 可 调 
用 对 象 、 参 数 元 组 以 及 一 个 可 选 的 关键 字 参 数字 典 即 可 。 要 构建 参数 元 组 或 者 字典 ， 
可 以 使 用 Py BuildValue()， 示 例如 下 : 


double call_func(PyObject *func, double x, double y) { 
PyObject *args; 





























PyObject *kwargs; 


/* Build arguments */ 
args = Py BuildValue("(dd)", x, y); 
kwargs = NULL; 


/* Call the function */ 

result = PyObject_Call(func, args, kwargs) ; 
Py_DECREF (args); 

Py_XDECREF (kwargs) ; 








如 上 述 代码 所 示 ， 如 果 没 有 关键 字 参 数 , 那么 可 以 传 NULL。 在 完成 函数 调用 后 , 需要 
确保 使 用 Py_DECREF0O 或 者 Py_XDECREF0O 来 清理 参数 。 后 者 可 安全 地 接受 NULL 指 
针 (会 忽略 掉 )， 这 也 是 为 什么 我 们 用 它 来 清理 可 选 的 关键 字 参 数 。 

在 调用 了 Python 也 数 后 ， 必 须 检 查 是 否 有 异常 出 现 。PyErr_OccurredO 隐 数 可 以 用 来 完 
成 这 个 任务 。 比 较 环 手 的 地 方 在 于 知道 如 何 去 响 应 异常 。 因 为 我 们 工作 在 C 语言 的 环 
Hap, b Python 所 拥有 的 异常 机 制 。 因 此 ， 需 要 设 定 错误 状态 码 ， 对 错误 做 日 志 记 
录 ， 或 者 去 做 一 些 明智 的 处 理 。 在 我 们 的 解决 方案 中 ， 由 于 没有 更 加 简单 的 替代 方案 ， 
因此 直接 调用 了 abort()( 此 外 ，C 语言 的 拥护 者 也 会 更 欣赏 这 种 直接 让 程序 月 演 的 
方案 )。 
































/* Check for Python exceptions (if any) */ 
if (PyErr Occurred()) { 

PyErr Print (); 

goto fail; 
} 


fail: 
PyGILState Release (state); 
abort (); 
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从 调用 的 Python 函数 的 返回 值 中 提取 出 信息 ， 一 般 来 说 需要 涉及 某 种 类 型 检查 和 提取 
值 的 过 程 。 要 做 到 这 点 ， 可 能 必须 用 到 Python concrete 对 象 层 ( https://docs. 
python.org/3/c-api/concrete.html ) 中 的 函数 。 在 解决 方案 中 ， 我 们 使 用 了 PyFloat CheckO 
和 Py_Float_AsDouble() PA ROK Rr AFF EUH Python 浮 点 数 。 

关于 从 C 中 调用 Python, RE “VME FFE Python 的 全 局 解释 器 锁 CGIL). 
每 当 从 C 中 访问 Python 时 ,需要 保证 对 GIL 做 合适 的 获取 和 释放 动作 。 和 否则 ， 就 会 有 
Python 解释 器 破坏 了 数据 或 者 崩溃 的 风险 。 调 用 PyGILState Ensure0 和 PyGILState_ 
ReleaseO 可 确保 正确 地 完成 这 些 步 又 : 


double call_func(PyObject *func, double x, double y) { 











double retval; 


/* Make sure we own the GIL */ 
PyGILState STATE state = PyGILState Ensure (); 


/* Code that uses Python C API functions */ 


/* Restore previous GIL state and return */ 
PyGILState_Release (state); 


return retval; 


fail: 
PyGILState_Release (state); 
abort (); 

} 


调用 PyGILState Ensure0 成 功 后， 将 总 是 保证 调用 线程 对 Python 解释 器 享有 独占 访问 
权 。 甚 至 当 调 用 的 C 代码 正在 运行 着 另 一 个 对 Python 解释 器 来 说 未 知 的 线程 时 也 是 如 
此 。 此 时 ，C 代码 可 自由 使 用 任何 想 调用 的 Python C-API 函数 了 。 当 成 功 返回 时 ， 使 
用 PyGILState_ Release() 来 将 解释 器 恢复 到 它 原 来 的 状态 。 


要 重点 提 到 的 是 ， 每 个 PyGILState Ensure() 调 用 必须 跟着 一 个 匹配 的 PyGILState 
Release() ial FH 甚至 在 出 现 错误 的 情况 下 也 必须 如 此 。 在 解决 方案 中 ， 我 们 使 用 的 
goto 语句 可 能 看 起 来 是 种 糟糕 的 设计 ， 但 是 实际 上 我 们 利用 它 来 将 控制 流 跳 转 到 一 个 
公共 的 退出 语句 块 中 ， 在 那里 执行 这 个 必要 的 步骤 。 可 以 把 fail: 标 签 后 的 代码 想象 成 
Python 中 的 finally: 语 句 块 ， 它 们 的 作用 和 目的 是 一 样 的 。 

如 果 我 们 编写 的 C 代码 使 用 了 所 有 这 些 约定 ， 包 括 管 理 GIL、 检 查 异常 以 及 对 错误 的 
彻底 检查 ,将 会 发 现 我 们 能 够 以 可 靠 的 方式 从 C 中 调用 Python 解释 器 一 一 即使 在 使 用 
了 高 级 编程 技术 ( 比如 多 线程 ) 的 复杂 程序 中 也 是 如 此 。 
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15.7 在 C 扩展 模块 中 释放 GIL 


15.7.1 问题 

我 们 希望 自己 的 C 扩展 代码 能 够 同 其 他 的 线程 一 起 在 Python 解释 器 中 并 发 运行 。 要 做 
到 这 点 ， 需 要 释放 并 重新 获取 全 局 解释 器 锁 ( GIL )。 

15.7.2 ”解决 方案 

在 C 扩展 代码 中 ， 可 以 通过 插入 下 列 宏 来 释放 并 重新 获取 GIL: 


#include "Python.h" 


























PyObject *pyfunc(PyObject *self, PyObject *args) { 


Py BEGIN _ALLOW_THREADS 
// Threaded C code. Must not use Python API functions 


Py_END_ALLOW_THREADS 


return result; 


15.7.3 ”讨论 

GIL 只 能 在 一 种 情况 下 被 安全 的 释放 , 即 , 如 果 可 以 保证 在 C 代码 中 不 执行 任何 Python 
C API 函数 。 典 型 的 例子 就 是 在 计算 密集 型 代码 中 对 C 数组 执行 计算 时 (例如 在 numpy 
这 样 的 扩展 模块 中 ) 或 者 在 执行 阻塞 式 IO 操作 的 代码 中 ( 例如 在 文件 描述 符 上 执行 读 
取 或 写 人 操作 时 )。 

为 GIL 的 释放 ， 其 他 Python 线程 就 允许 在 解释 器 中 执行 了 。 宏 Py END_ ALLOW _ 
THREADS 会 阻塞 执行 ， 直 到 调用 线程 重新 获取 到 GIL 为 止 。 















































15.8 混合 使 用 C 和 Python 环境 中 的 线程 


15.8.1 问题 
我 们 的 程序 中 混合 了 C, Python 和 线程 , 但 是 其 中 有 些 线程 是 在 C 环境 中 创建 的 ， 
AN Python 解释 器 的 控制 。 此 外 ， 还 有 一 些 特定 的 线程 使 用 了 Python C API 中 的 
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15.8.2 ”解决 方案 

如 果 打 算 将 C、Python 和 线程 混合 在 一 起 使 用 ， 需 要 确保 以 恰当 的 方式 初始 化 和 管理 
Python 的 全 局 解释 器 锁 ( GIL )。 要 做 到 这 点 ， 可 以 在 C 代码 中 包含 如 下 的 代码 ， 并 确 
保 在 创建 任何 线程 之 前 先 调用 它 : 


#include <Python.h> 

















if (!PyEval_ThreadsInitialized()) { 
PyEval_InitThreads () ; 
} 


对 于 任何 涉及 Python 对 象 或 者 Python C APL 的 C 代码， 首先 需要 保证 以 合适 的 方式 获取 
和 释放 GIL。 这 可 以 通过 PyGILState Ensure0 和 了 PyGILState_ Release() 来 做 到 ， 示 例如 下 : 

















/* Make sure we own the GIL */ 
PyGILState STATE state = PyGILState Ensure(); 


/* Use functions in the interpreter */ 


/* Restore previous GIL state and return */ 
PyGILState_ Release (state); 








每 一 个 PyGILState_Ensure0 调 用 都 必须 有 一 个 配对 的 PyGILState_Release(). 


15.8.3 ”讨论 

在 涉及 C 和 Python 的 高 级 应 用 中 ， 让 许多 事情 同时 运行 的 情况 并 非 不 常见 一 一 很 可 能 会 
涉及 C AUS. Python 代码 、C 线程 以 及 Python 线程 。 只 要 保证 Python 解释 器 经 过 恰当 
的 初始 化 且 涉 及 解释 器 相关 的 C 代码 能 够 管理 好 GIL， 那 么 就 可 以 正常 工作 。 

请 注意 PyGILState_ Ensure0 并 不 会 立刻 抢占 或 中 断 解 释 器 。 如 果 其 他 代码 正在 执行 中 ， 这 
个 函数 将 阻塞 直到 其 他 代码 决定 释放 GIL 为 止 。 在 内 部 ，Python 解释 器 会 周期 性 地 切换 线 
FE, 因此 即使 男 一 个 线程 正在 执行 , 调用 方 最 终 依然 会 得 到 运行 ( 尽管 可 能 先 要 等 待 一 会 儿 )。 









































15.9 FA Swig 来 包装 C 代码 


15.9.1 问题 
我 们 想 将 已 有 的 C 代码 作为 C 扩展 模块 来 访问 。 我 们 想 通 过 Swig ( http://www.swig.org ) 
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来 实现 这 一 目标 。 


15.9.2 ”解决 方案 


Swig 可 以 解析 C 头 文件 并 自动 创建 出 扩展 代码 来 。 要 使 用 这 个 工具 ， 首 先 需要 有 一 个 
C 头 文件 。 例 如 ， 下 面 这 个 头 文件 就 可 用 于 我 们 的 示例 代码 : 


/* sample.h */ 











#include <math.h> 

extern int gcd(int, int); 

extern int in_mandel(double x0, double y0, int n); 
extern int divide(int a, int b, int *remainder); 
extern double avg (double “a, int n); 


typedef struct Point { 
double x,y; 
} Point; 


extern double distance (Point *pl, Point *p2); 


一 旦 有 了 头 文件 ， 下 一 步 就 是 编写 一 个 Swig“ 接 口 ”文件 。 根 据 约定 ， 这 些 接口 文件 
都 以 .i 作为 后 级 ， 看 起 来 类 似 于 这 样 : 


// sample.i - Swig interface 

















smodule sample 
%{ 
#include "sample.h" 


%} 


/* Customizations */ 

Sextend Point { 
/* Constructor for Point objects */ 
Point (double x, double y) { 


Point xp = (Point *) malloc (sizeof (Point) ); 
p->x = x; 
p--y = yi 
return p; 


hi 


/* Map int *remainder as an output argument */ 
Sinclude typemaps.i 
Sapply int *OUTPUT { int * remainder }; 


/* Map the argument pattern (double *a, int n) to arrays */ 
Stypemap(in) (double *a, int n) (Py buffer view) { 
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view.obj = NULL; 

if (PyObject_GetBuffer(Sinput, &view, PyBUF ANY CONTIGUOUS | PyBUF_FORMAT) 
SWIG_fail; 

} 

if (strcomp(view.format,"d") != 0) { 
PyErr SetString(PyExc_TypeError, "Expected an array of doubles"); 
SWIG fail; 

} 

$1 = (double *) view.buf; 

$2 = view.len / sizeof (double); 


Stypemap(freearg) (double *a, int n) { 
if (viewSargnum.obj) { 
PyBuffer Release (&view$argnum); 


/* C declarations to be included in the extension module */ 


extern int gcd(int, int); 

extern int in mandel (double x0, double y0, int n); 
extern int divide(int a, int b, int *remainder); 
extern double avg(double *a, int n); 


typedef struct Point { 
double x,y; 


} Point; 


extern double distance(Point *pl, Point *p2); 








一 旦 编写 好 了 这 个 接口 文件 ，Swig 就 可 以 作为 命令 行 工具 在 终端 中 调用 了 : 


Swis 会 产生 两 个 文件 : sample_wrap.c 和 
wrap.c 文件 是 C 程序 源 代码 ， 需 要 将 其 编 


bash 
bash 


swig -python -py3 sample.i 


g 
© 
g 
© 






































展 模块 所 采用 的 技术 一 样 。 例 如 ， 要 像 这 样 创建 一 个 setup.py 文件 : 


# setup.py 
from distutils.core import setup, Extension 


setup (name='sample', 
py_modules=['sample.py'], 
ext_modules=[ 
Extension('_sample', 
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sample.py。 后 者 是 用 户 用 来 导入 的 。sample_ 
译 到 一 个 支撑 模块 sample 中 。 这 和 普通 的 扩 


['sample_wrap.c'], 
include dirs = [ 


undef_macros = [ 


] 
l; 
define macros = [], 
l; 
library_dirs = [], 
libraries = ['sample'] 


) 





要 编译 和 测试 ， 只 要 针对 setup.py 文件 运行 python3 即 可 : 


bash % python3 setup.py build_ext --inplace 














running build_ext 
building '_sample' extension 
gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict-prototypes 
-I/usr/local/include/python3.3m -c sample _wrap.c 
-o build/temp.macosx-10.6-x86 64-3.3/sample wrap.o 
sample wrap.c: In function ‘SWIG InitializeModule’: 
sample wrap.c:3589: warning: statement with no effect 
gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86_64-3.3/sample.o 
build/temp.macosx-10.6-x86_64-3.3/sample_wrap.o -o _sample.so -lsample 
bash % 


如 果 一 切 顺 利 ， 会 发 现 现在 能 够 直接 使 用 得 到 的 C 扩展 模块 了 ， 示 例如 下 : 


>>> import sample 
>>> sample.gcd (42,8) 








2 

>>> sample.divide (42, 8) 
[5, 2 

>>> pl = sample.Point (2, 3) 


>>> p2 = sample.Point (4,5) 
>>> sample.distance(p1,p2) 
2.8284271247461903 





>>> pl.x 
2.0 
>>> pl.y 
3.0 


>>> import array 

>>> a = array.array('d', [1,2,3]) 
>>> sample.avg(a) 

2.0 

>>> 


15.9.3 iit 
Swis 是 用 来 构建 扩展 模块 的 最 古老 的 工具 之 一 ， 时 间 要 追溯 到 Python 1.4 时 期 。 但 是 ， 
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目前 的 版 本 已 经 开始 对 Python 3 提供 支持 了 。Swig 的 主要 用 途 是 使 用 Python 作为 高 层 
控制 语言 来 访问 已 有 的 大 型 C 代码 库 。 例 如 ， 用 户 的 C 代码 中 可 能 包含 了 上 千 个 函数 
以 及 各 式 各 样 的 数据 结构 ， 而 用 户 希 望 通过 Python 来 访问 它们 。 大 部 分 生成 包装 函数 
的 过 程 都 可 以 用 Swig 来 自动 化 进行 。 
所 有 的 Swig 接口 都 有 着 如 下 的 简短 开头 : 

Smodule sample 

%{ 


#include "sample.h" 
3} 


这 仅仅 只 是 声明 了 扩展 模块 的 名 称 ， 而 且 指 定 了 必须 要 包含 在 内 才能 让 所 有 组 件 通过 
编译 的 C 头 文件 ( 包 在 %{ 和 多 } 之 间 的 代码 会 直接 粘贴 到 输出 的 代码 文件 中 , 因此 为 了 
能 编译 通过 ， 要 将 所 有 需要 包含 的 头 文件 和 其 他 的 定义 都 放置 在 这 里 )。 
Swig 接口 文件 的 底部 是 一 些 想 包含 在 扩展 模块 中 的 C 声明 式 。 这 些 通常 可 以 直接 从 头 
文件 中 拷贝 过 来 。 在 我 们 的 示例 中 ， 我 们 是 直接 从 头 文件 中 粘贴 过 来 的 : 

Smodule sample 

%{ 


#include "sample.h" 
5} 


















































extern int gcd(int, int); 
extern int in mandel (double x0, double y0, int n); 
extern int divide (int a, int b, int *remainder); 


extern double avg (double *a, int n); 


typedef struct Point { 
double x,y; 
} Point; 


extern double distance (Point *pl, Point *p2); 


要 重点 强调 的 是 这 些 声 明 式 就 是 在 告诉 Swig 你 希望 包含 在 Python 模块 中 的 内 容 。 对 声 
明 列 表 做 适当 的 修改 和 编辑 是 很 常见 的 。 比 如 ， 如 果 不 想 包含 某 些 特定 的 声明 式 ， 可 
以 从 声明 列表 中 将 它们 移 除 。 

使 用 Swis 最 复杂 的 部 分 在 于 它 可 以 对 C 代码 做 各 种 各 样 的 定制 化 处 理 。 这 是 个 
庞大 的 主题 不 可 能 在 这 里 涵盖 所 有 细节 ， 但 是 本 节 中 也 展示 了 几 个 这 样 的 定制 化 
处 理 。 

第 一 个 定制 化 处 理 涉 及 %extend 指令 ， 它 允许 将 方法 关联 到 已 有 的 结构 体 和 类 定义 中 。 
在 示例 中 , 我 们 使 用 这 个 技术 给 Point 结构 体 添加 了 一 个 构造 函数 。 这 个 定制 化 处 理 使 
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得 像 这 样 使 用 结构 体 成 为 可 能 : 
>>> pl = sample.Point (2, 3) 
>>> 





如 果 忽 略 这 一 步 ， 那 么 Point 对 象 就 需要 以 更 加 复杂 的 方式 来 创建 了 : 


>>> # Usage if extend Point is omitted 
>>> pl = sample.Point () 

>>> pl.x = 2.0 

>>> pl.y = 3 


第 二 个 定制 化 处 理 涉及 包含 typemaps.i 库 ， 以 及 对 %apply 指令 的 使 用 。%apply 指令 告 
诉 Swig 参数 签名 int *remainder 应 该 被 看 做 是 一 个 输出 值 。 这 实际 上 是 一 个 模式 匹配 规 
则 。 在 后 面 所 有 的 声明 式 中 ， 只 要 遇 到 了 int *remainder， 那 么 就 把 它 当 做 输出 处 理 。 
这 个 定制 化 处 理 使 得 divide0 函 数 可 以 返回 两 个 值 : 

>>> sample.divide (42,8) 


[5, 2] 
>>> 








最 后 一 个 定制 化 处 理 涉及 对 %typemap 指令 的 使 用 , 这 也 许 是 本 节 所 展示 的 最 高 级 的 功 
能 了 。typemap 就 是 一 种 规则 ， 可 作用 于 输入 中 特定 的 参数 模式 上 。 在 本 节 中 , RME 
经 编写 了 一 个 typemap 来 匹配 形式 为 (double *a, int n) 这 样 的 参数 模式 。 在 typemap 内 部 
是 一 段 C 代码 ， 用 来 告诉 Swig 如 何 去 把 一 个 Python 对 象 转换 为 相关 的 C 参数 。 本 节 
给 出 的 代码 中 使 用 了 Python 中 的 buffer 协议 ， 用 来 对 任何 看 起 来 像 是 double 数组 的 输 
入 参数 做 匹配 ( 即 ，NumPy 数组 、 由 array 模块 创建 的 数组 等 )。 对 数组 的 操作 可 参见 
15.3 节 。 


在 typemap 代码 中 ， 类 似 像 $1 和 $2 这 样 的 替换 符 用 来 代表 变量 ， 这 些 变 量 保 存 着 在 
typemap 模式 中 经 过 转换 的 C 参数 的 值 (例如 ，$1 会 映射 为 double *a， 而 $2 会 映射 
为 intn )。$input 表示 一 个 PyObject * 参 数 ， 它 作为 输入 参数 。$argument 则 表示 参数 
的 个 数 。 


编写 和 理解 typemap 常常 成 为 程序 员 使 用 Swig 的 最 大 障碍 。 不 仅 因 为 这 种 代码 相当 隐 
K, 而 且 需 要 我 们 同时 对 Python C API 以 及 Swis 与 它们 交互 的 方式 的 复杂 细节 有 着 很 
好 的 理解 。Swig 的 文档 中 有 更 多 的 示例 和 详细 的 信息 。 


然而 ， 如 果 有 许多 C 代码 需要 以 扩展 模块 的 方式 暴露 给 Python， 则 Swig 可 以 成 为 一 件 
非常 得 力 的 工具 。 需 要 牢记 的 关键 点 就 是 Swig 基本 上 就 是 一 个 用 来 处 理 C 语言 声明 的 
编译 器 ， 但 是 还 有 着 强大 的 模式 匹配 以 及 定制 化 组 件 ， 能 让 我 们 对 特定 的 声明 和 类 型 
的 处 理 方式 做 出 改变 。 更 多 信息 可 在 Swig 的 网 站 ( http://www.swig.org ) 以 及 特定 于 
Python 的 文档 (http:Wwww.swig.org/Doc2.0/Python.html ) 中 找到 。 
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15.10 用 Cython 来 包装 C 代码 


15.10.1 问题 
我 们 想 用 Cython 来 创建 一 个 Python 扩展 模块 ， 用 来 包装 一 个 已 有 的 C 库 。 


15.10.2 解决 方案 
从 某 种 程度 上 来 看 ， 用 Cython 创建 一 个 扩展 模块 和 手动 编写 扩展 模块 有 些 相 似 。 它 们 
都 需要 我 们 创建 一 组 包装 函数 。 但 是 与 前 几 节 不 同 的 是 ， 我 们 不 必 再 用 C 来 完成 这 些 
事情 了 一 一 现在 使 用 的 代码 看 起 来 非常 像 Python。 
提前 说 明 ， 假设 本 章 介 绍 部 分 给 出 的 示例 代码 已 经 被 编译 为 C 库 ， 名 称 为 libsample。 
我 们 首先 创建 一 个 名 为 csample.pxd 的 文件 ， 它 看 起 来 是 这 样 的 : 

# csample.pxd 


# 


# Declarations of "external" C functions and structures 

























































































cdef extern from "sample.h": 
int gcd(int, int) 
bint in mandel(double, double, int) 
int divide(int, int, int *) 


double avg(double *, int) nogil 
ctypedef struct Point: 
double x 


double y 


double distance(Point *, Point *) 





这 个 文件 在 Cython 中 的 目的 和 作用 就 相当 于 一 个 C 头 文件 。 文 件 中 最 开始 的 声明 cdef 
extern from "sample.h" 声 明了 所 需 的 C 头 文件 。 后 面 跟着 的 声明 都 是 取 自 那个 C 头 文 
件 中 。 这 个 文件 的 名 称 是 csample.pxd, 7: sample.pxd 一 一 这 一 点 很 重要 。 

接 下 来 ， 创 建 一 个 名 为 sample.pyx 的 文件 。 这 个 文件 将 定义 包装 函数 ， 作 为 Python 解 
释 器 到 csample.pxd 文件 中 定义 的 底层 C 代码 之 间 的 桥梁 : 


# sample.pyx 








# Import the low-level C declarations 


cimport csample 


# Import some functionality from Python and the C stdlib 
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from cpython.pycapsule cimport * 
from libc.stdlib cimport malloc, free 


# Wrappers 
def gcd(unsigned int x, unsigned int y): 


return csample.gcd(x, y) 


def in_mandel(x, y, unsigned int n): 


return csample.in_mandel(x, y, n) 


def divide(x, y): 
cdef int rem 
quot = csample.divide(x, y, &rem) 
return quot, rem 


def avg(double[:] a): 
cdef: 
int sz 
double result 


sz = a.size 
with nogil: 

result = csample.avg(<double *> &a[0], sz) 
return result 


# Destructor for cleaning up Point objects 
cdef del Point (object obj): 
pt = <csample.Point *> PyCapsule_GetPointer (obj, "Point") 


free (<void *> pt) 


# Create a Point object and return as a capsule 
def Point (double x,double y): 
cdef csample.Point *p 
p = <csample.Point *> malloc (sizeof (csample.Point) ) 
if p == NULL: 
raise MemoryError ("No memory to make a Point") 
p.x =x 
Py =Y 
return PyCapsule New(<void *>p,"Point",<PyCapsule Destructor>del Point) 


def distance (p1, p2): 
pt1 = <csample.Point *> PyCapsule GetPointer(pl,"Point") 
pt2 = <csample.Point *> PyCapsule GetPointer(p2,"Point") 
return csample.distance (pt1,pt2) 
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有 关 这 个 文件 的 各 种 细节 将 在 讨论 部 分 做 进一步 的 说 明 。 最 后 ， 要 构建 出 扩展 模块 ， 
需要 创建 一 个 setup.py 文件 ， 看 起 来 是 这 样 的 : 


from distutils.core import setup 





from distutils.extension import Extension 
from Cython.Distutils import build_ext 


ext_modules 


Extension('sample', 


setup ( 


name = 


"sample.pyx'], 
ibraries=['sample'], 


ibrary_dirs=['.'])] 





"Sample extension module', 


cmdclass 


= {'build_ext': build_ext}, 


ext_modules = ext_modules 





要 构建 出 最 后 的 结果 用 于 实验 ， 在 终端 中 键入 如 下 命令 : 


bash % python3 setup.py build ext --inplace 


running build_ext 


cythoning sample.pyx to sample.c 


building 'sample' extension 


gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict-prototypes 


-I/usr/local/include/python3.3m -c sample.c 


-o build/temp.macosx-10.6-x86_64-3.3/sample.o 


gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86_64-3.3/sample.o 


-L. -lsample -o sample.so 


bash % 


如 果 一 切 顺 利 ， 现 在 应 该 有 一 个 名 为 sample.so 的 扩展 模块 了 ， 可 以 像 下 列 示例 中 那样 
使 用 : 


>>> import 


>>> samp 
2 

>>> samp 
False 
>>> samp 
True 

>>> samp 
(4, 2) 





e. 


e 


e. 


G 


sample 
gcd (42,10) 


.in mandel (1,1,400) 


in_mandel (0,0,400) 


.divide (42,10) 


>>> import array 


>>> a = 


array.array('d', [1,2,3]) 


>>> sample.avg(a) 
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2.0 

>>> pl = sample.Point (2,3) 

>>> p2 = sample.Point (4,5) 

>>> pl 

<capsule object "Point" at 0x1005dle70> 
>>> p2 

<capsule object "Point" at 0x1005dlea0> 
>>> sample.distance(p1,p2) 
2.8284271247461903 

>>> 


15.10.3 ”讨论 

本 节 包 含 了 一 些 在 前 面 章节 中 讨论 过 的 高 级 特性 ， 这 包括 操作 数组 、 包 装 不 透明 
指针 以 及 释放 GIL。 这 些 部 分 在 本 节 中 会 依次 进行 讨论 ， 但 我 们 先 回 顾 一 下 前 面 
的 章节 。 

从 高 层 来 看 ，Cython 是 用 来 模仿 C 的 。.pxd 文件 仅仅 只 是 包含 了 C 中 的 声明 ( 和 C 中 
的 .h 文件 类 似 )， 而 .Pyx 文件 包含 了 实现 ( 类 似 于 .c 文件 )。Cython 中 的 cimport 语句 用 
来 从 .pxd 文件 中 导入 声明 。 这 和 使 用 普通 的 Python import 语句 有 所 不 同 ， 在 Python 中 
这 会 加 载 一 个 正常 的 Python 模块 。 

尽管 .pxd 文件 包含 了 声明 ， 但 它们 并 不 是 用 来 自动 产生 扩展 代码 的 。 因 此 ， 我 们 仍然 
必须 编写 简单 的 包装 函数 。 例如， 尽管 csample.pxd 文件 声明 了 函数 int gcd(int, int), 我 
们 仍然 需要 在 sample.pyx 中 编写 一 个 包装 函数 。 示 例如 下 : 


cimport csample 














7 























def gcd(unsigned int x, unsigned int y): 


return csample.gcd(x,y) 


对 于 简单 的 函数 ， 要 做 的 事情 并 不 会 太 多 。Cython 会 产生 包装 代码 对 参数 和 返回 值 做 
适当 的 转换 。 关 联 到 参数 上 的 C 数据 类 型 是 可 选 的 。 但 是 ， 如 果 包 含 了 它们 ， 不 用 花 
任何 代价 就 能 获得 额外 的 错误 检查 。 例 如 ， 如 果 有 人 用 负数 做 参数 来 调用 这 个 函数 ， 
那么 就 会 产生 一 个 异常 : 


>>> sample.gcd(-10, 2) 











Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "sample.pyx", line 7, in sample.gcd (sample.c:1284) 
def gcd(unsigned int x,unsigned int y): 
OverflowError: can't convert negative value to unsigned int 


>>> 














如 果 想 给 包装 函数 添加 额外 的 检查 机 制 ， 只 要 再 增加 包装 的 代码 即 可 。 示 例如 下 : 
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def gcd(unsigned int x, unsigned int y): 
if x <= 0: 
raise ValueError ("x must be > 0") 
if y <= 0: 
raise ValueError("y must be > 0") 


return csample.gcd(x,y) 


在 csample.pxd 文件 中 声明 的 让 _ mandel0 有 一 个 有 趣 但 不 太 明 显 的 地 方 。 在 那个 文件 中 ， 
函数 被 声明 为 返回 一 个 bint 而 不 是 int。 这 使 得 函数 会 创建 一 个 合适 的 布尔 值 而 不 是 一 
个 简单 的 整 型 值 。 因 此 ， 返 回 值 0 会 被 映射 为 False， 而 1 会 对 应 True. 

在 Cython 包装 函数 内 ， 除 了 可 以 使 用 所 有 普通 的 Python 对 象 外 ， 还 可 以 选择 声明 C 
数据 类 型 。divide0 的 包装 函数 就 展示 了 这 样 一 个 用 法 ， 也 演示 了 如 何 处 理 指针 参数 。 





























def divide(x,y): 
cdef int rem 
quot = csample.divide (x,y, &rem) 
return quot, rem 


这 里 ， 变 量 rem 被 显 式 声 明 为 C 语言 中 的 int 变量 。 当 传递 给 下 面 的 divideO 函 数 时 ， 
&rem 就 表示 指 问 rem 的 指针 ， 这 和 C 语言 中 的 表达 方式 一 致 。 

avg0 函 数 的 代码 则 说 明了 Cython 中 一 些 更 加 高 级 的 功能 。 首 先 ， 声明 式 def avg(double[:] 
ay avg0 声 明 为 接受 一 个 一 维 double 值 的 内 存 视图 (memoryview )。 令 人 惊讶 的 地 方 
在 于 这 使 得 avg 函数 将 接受 任意 一 种 兼容 的 数组 对 象 ， 包 括 那些 由 numpy 库 所 创建 的 
数组 也 是 如 此 。 示 例如 下 : 


>>> import array 





























>>> a = array.array('d', [1,2,3]) 
>>> import numpy 

>>> b = numpy.array([1., 2., 3.]) 
>>> import sample 

>>> sample.avg (a) 

2.0 

>>> sample.avg(b) 

2.0 

>>> 


在 包装 函数 中 ，a.size 和 &a[0] 分 别 表示 数组 元 素 的 个 数 以 及 指向 数组 的 指针 。 语 法 
<double *> &a[0] 可 以 让 我 们 在 必要 的 时 候 对 指针 类 型 进行 转换 ,需要 保证 C 中 的 avg() 
函数 接受 的 是 类 型 正确 的 指针 。 下 一 节 中 会 介绍 一 些 有 关 Cython 中 内 存 视图 的 高 级 
用 法 。 

除了 同 篆 规 数 组 打交道 外 ，avg0 的 示例 也 展示 了 如 何 同 全 局 解释 需 锁 〈GIL ) 打交道 。 
语句 with nogil: 声 明了 一 个 代码 块 ， 表 示 执 行 时 不 持 有 GIL。 在 语句 块 内 部 ， 使 用 任何 
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普通 的 Python 对 象 都 是 非法 的 只 有 声明 为 cdef 的 对 象 和 函数 可 以 使 用 。 除 此 之 外 ， 
外 部 函数 必须 显 式 声明 为 可 以 不 持 有 GIL 执行 。 因 此 ， 在 csample.pxd 文件 中 朴 数 avg() 
被 声明 为 double avg(double *, int) nogil。 

对 结构 体 Point 的 处 理 则 带 来 了 特殊 的 挑战 。 如 前 文 所 示 , 本 节 使 用 capsule 对 象 将 Point 
对 象 当 做 不 透明 指针 来 处 理 ， 这 部 分 内 容 在 15.4 节 中 已 有 说 明 。 但 是 ， 要 做 到 这 点 ， 
底层 的 Cython 代码 就 要 更 加 复杂 一 点 。 首先 , 下 面 这 些 导 入 语句 是 用 来 从 C 库 和 Python 
C API 中 引入 函数 定义 : 


from cpython.pycapsule cimport * 

















from libc.stdlib cimport malloc, free 


函数 del_Point0 和 PointO 使 用 导入 的 函数 来 创建 一 个 capsule 对 象 用 来 包装 Point * 指 针 。 
声明 式 cdef del_PointO 把 del_Point0 声 明 为 一 个 只 能 从 Cython 而 不 是 Python 中 访问 的 
函数 。 因 而 ， 这 个 函数 对 外 部 是 不 可 见 的 一 一 相反 ， 它 作为 回调 函数 来 清理 由 capsule 
对 象 占用 的 内 存 空间 。 对 PyCapsule New0 和 PyCapsule_GetPointer() 的 调用 是 直接 从 
Python C API 中 得 来 的 ， 使 用 方法 一 样 。 


distance() PAX MFA Point0 中 创建 出 的 capsule 对 象 里 提取 出 指针 。 这 里 值得 注意 的 是 
我 们 不 必 担 心 异 常 处 理 的 问题 。 如 果 传 递 了 一 个 不 正确 的 对 象 , PyCapsule_GetPointer() 
会 产生 一 个 异常 ,但 是 Cython 会 去 查找 异常 并 将 其 传播 到 distance0 外 部 。 

在 这 个 解决 方案 中 ,对 Point 结构 体 的 处 理 缺 点 在 于 这 完全 是 不 透明 的 。 我 们 无 法 查看 
或 访问 任何 属性 。 下 面 还 有 一 个 替代 方案 ， 就 是 定义 一 个 扩展 类 型 ， 示 例如 下 : 


# sample.pyx 





































































































cimport csample 
from libc.stdlib cimport malloc, free 


cdef class Point: 
cdef csample.Point *_c point 
def cinit (self, double x, double y): 
self. c point = <csample.Point *> malloc(sizeof(csample.Point) ) 
self. c point.x = x 
self. c point.y = y 


def dealloc (self): 
free(self._c_point) 


property x: 
def get (self): 
return self. c point .X 
def set (self, value): 
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self._c_point.x = value 


property y: 
def get _ (self): 
return self. c point .y 
def set (self, value): 
self. c_point.y = value 


def distance(Point pl, Point p2): 
return csample.distance(pl._c_point, p2._c point) 





这 里 ，cdef class Point 将 Point 声明 为 一 个 扩展 类 型 。 类 变量 cdef csample.Point * c point 
用 来 保存 指向 底层 C 代码 中 Point 结构 体 的 指针 。 _cinit 0O 和 ”dealloc 0 方法 使 用 
malloc() fil freeO 调 用 来 创建 和 销毁 底层 的 C 结构 体 。property x 和 property y 声明 让 代 
人 码 可 以 对 底层 的 结构 体 属性 进行 get 和 set 操作 。distance0 的 包装 了 水 数 也 被 适当 地 修改 
为 接受 Point 扩展 类 型 实例 作为 参数 ， 但 是 会 传递 底层 的 指针 给 C 函数 。 


做 了 这 样 的 修改 ， 会 发 现 现在 用 来 操作 Point 对 象 的 代码 会 更 加 自然 些 : 


>>> import sample 














>>> pl = sample.Point (2,3) 

>>> p2 = sample.Point (4,5) 

>>> p 

<sample.Point object at 0x100447288> 
>>> p2 

<sample.Point object at 0x1004472a0> 
>>> pl.x 

2.0 

>>> pl.y 

3.0 

>>> sample.distance (pl, p2) 
2.8284271247461903 





>>> 





本 节 介 绍 了 许多 Cython 的 核心 功能 ， 我 们 可 以 将 它们 应 用 到 情况 更 加 复杂 的 包装 处 理 
上 。 可 以 肯定 的 是 , 要 想 实 现 更 多 功能 , 一 定 要 去 看 看 官方 文档 ( http://docs.cython.org )。 


接 下 来 的 几 节 同样 会 介绍 一 些 额外 的 Cython 功能 。 

















15.11 FA Cython 来 高 效 操作 数组 


15.11.1 ”问题 
我 们 想 编写 一 些 用 来 处 理 数组 的 高 人 

















PT 


能 函数 ， 把 它们 作用 在 类 似 NumPy 这 样 的 库 创 建 的 
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数组 上 。 我 们 听 说 像 Cython 这 样 的 工具 会 让 这 个 过 程 变 得 简单 ， 但 是 不 确定 该 如 何 去 做 。 


15.11.2 ”解决 方案 
作为 示例 ， 下 面 的 代码 展示 了 一 个 用 来 对 一 维 double 数组 元 素 进行 修改 的 函数 ; 


# sample.pyx (Cython) 











cimport cython 


@cython.boundscheck (False) 
@cython.wraparound (False) 
cpdef clip(double[:] a, double min, double max, double[:] out): 


Clip the values in a to be between min and max. Result in out 
me 
if min > max: 
raise ValueError("min must be <= max") 
if a.shape[0] != out.shape[0]: 
raise ValueError ("input and output arrays must be the same size") 
for i in range(a.shape[0]): 
if a[i] < min: 
out [i] = min 
elif a[i] > max: 
out [i] = max 


else: 


I 


out [i] ali] 


要 编译 并 构建 这 个 扩展 函数 ， 需 要 一 个 下 面 这 样 的 setup.py 文件 (使 用 命令 python3 
setup.py build_ext --inplace 来 构建 ): 








from distutils.core import setup 
from distutils.extension import Extension 


from Cython.Distutils import build ext 


ext_modules = [ 
Extension('sample', 


['sample.pyx']) 


setup ( 
name = 'Sample app', 
emdclass = {'build_ext': build ext}, 


ext_modules = ext_modules 
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就 会 发 现 得 到 的 函数 可 以 对 数组 元 素 进行 修改 ， 而 且 可 以 用 于 许多 不 同类 型 的 数组 对 
象 。 例 如 : 


>>> # array module example 

>>> import sample 

>>> import array 

>>> a = array.array('d', [1,-3,4,7,2,0]) 
>>> a 


array('d', [1.0, -3.0, 4.0, 7.0, 2.0, 0.0]) 
>>> sample.clip(a,1,4,a) 

>> a 

array('d', [1.0, 1.0, 4.0, 4.0, 2.0, 1.0]) 


>>> # numpy example 

>>> import numpy 

>>> b = numpy.random.uniform(-10,10,size=1000000) 

>>> b 

array ([-9.55546017, 7.45599334, 0.69248932, ..., 0.69583148, 
-3.86290931, 2.37266888] ) 

>>> c = numpy.zeros_like(b) 

>>> c 

array lO 0 

>>> sample.clip(b,-5,5,c) 

>>> c 

array ([-5. , 5. , 0.69248932, ..., 0.69583148, 
-3.86290931, 2.37266888]) 

>>> min (c) 

-5.0 

>>> max (c) 

5.0 

>>> 


同样 ， 我 们 也 会 发 现 得 到 的 代码 运行 起 来 很 快 。 在 下 面 的 交互 式 会 话 中 ， 我 们 用 这 个 
实现 同 numpy 库 中 已 有 的 clip0 函 数 进行 了 一 场 针 锋 相对 的 比拼 : 


>>> timeit ('numpy.clip(b,-5,5,c)','from _main_ import b,c,numpy',number=1000) 
8.093049556000551 

>>> timeit ('sample.clip(b,-5,5,c)','from main import b,c,sample', 

i number=1000) 

3.760528204000366 

>>> 


可 以 看 到 , 我 们 的 实现 要 快 上 许多 一 一 考虑 到 NumPy 的 版 本 其 核心 是 用 C 语言 编写 的 ， 
得 出 这 样 的 结果 真是 有 趣 。 
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15.11.3 ”讨论 


本 节 利 用 了 Cython 中 的 类 型 化 内 存 视图 (typed memoryview )， 它 极 大 地 简化 了 操作 于 
数组 的 代码 。 语 句 cpdef clip0 将 clip0 同 时 声明 为 C 和 Python 函数 。 在 Cython PXA 
做 是 很 有 用 的 ， 因 为 这 意味 着 该 函数 在 其 他 Cython 函数 中 调用 起 来 要 更 有 效率 ( 例如， 
如 果 想 从 另 一 个 不 同 的 Cython 函数 中 调用 clipO )。 


类 型 化 参数 double[:] a 以 及 double[:] out 将 这 些 参数 声明 为 一 维 double 数组 。 作 为 输入 ， 
它们 可 以 访问 任何 实现 了 内 存 视图 接口 的 数组 对 象 (有 关内 存 视图 接口 ， 可 参见 PEP 
3118 )。 这 包括 NumPy 以 及 内 建 的 array 库 中 的 数组 。 


如 果 编 写 的 代码 产生 的 结果 同样 是 数组 ， 我 们 应 该 遵循 示例 代码 中 所 展示 的 惯例 ， 即 ， 
让 一 个 参数 成 为 输出 参数 。 这 就 把 创建 输出 数组 的 责任 留 给 了 调用 者 ， 而 实现 者 则 不 
必 了 解 太 多 有 关 数 组 是 什么 类 型 的 具体 细节 (这 里 只 假设 数组 已 经 准备 就 位 ， 只 需要 
做 一 些 基 本 的 检查 ， 例 如 确保 它们 的 大 小 是 兼容 的 )。 在 NumPy 这 样 的 库 中 ， 使 用 
numpy.zeros0) 或 者 numpy.zeros_like(0) 来 创建 输出 数组 相对 来 说 是 很 容易 的 。 或 者 ,要 创 
建 未 初始 化 的 数组 , 可 以 使 用 numpyempty0 或 者 numpy.empty_like0。 如 果 打 算 用 结果 
来 覆盖 数组 内 容 ， 这 么 做 会 稍微 更 快 些 。 

在 函数 的 实现 中 ,只 需要 利用 索引 ( 例如 a[ 订 、out 自 等 ) 编写 简单 直接 的 代码 来 处 理 数 
组 即 可 。Cython 会 采取 措施 确保 产生 高 效 的 代码 。 

位 于 clip0 定 义 之 前 的 那 两 个 装饰 器 是 用 来 做 性 能 优化 的 可 选项 。@cython.boundscheck 
(False) 会 消除 所 有 的 数组 边界 检查 ， 如 果 已 经 知道 索引 不 会 越界 ， 那 么 就 可 以 使 用 它 。 
@cython.wraparound(False) 在 包装 整个 数组 时 会 消除 针对 下 标 为 负数 时 的 处 理 。 包 含 了 
这 些 装 饰 器 能 让 代码 的 运行 速度 显著 提高 (对 于 这 个 示例 ， 我 们 测试 的 结果 是 会 快 大 
约 2.5 倍 )。 
每 当 同 数组 打交道 时 ， 对 底层 的 算法 做 仔细 的 研究 和 试验 同样 也 能 获得 巨大 的 速度 提 
升 。 例 如 ， 考 虑 下 面 这 个 clip0 函 数 的 变种 ， 这 里 使 用 了 条 件 表 达 式 : 


@cython.boundscheck (False) 





































































































@cython.wraparound (False) 
cpdef clip(double[:] a, double min, double max, double[:] out): 
if min > max: 
raise ValueError ("min must be <= max") 
if a.shape[0] != out.shape[0]: 
raise ValueError ("input and output arrays must be the same size") 
for i in range(a.shape[0]): 
out[i] = (a[i] if a[i] < max else max) if a[i] > min else min 

















测试 的 时 候 ， 这 个 版 本 的 代码 运行 速度 又 要 快 50% 多 (在 timeitO 测 试 中 ， 成 绩 是 2.44 
秒 对 比 之 前 的 3.76 秒 )。 








C 语言 扩展 655 


此 时 , 我 们 可 能 想 知道 为 什么 这 份 代 码 在 执行 效率 上 会 力 压 手写 的 C 语言 版 本 。 例 如 ， 
也 许 我 们 编写 了 如 下 的 C 函数 ， 然 后 利用 前 面 几 节 中 谈 到 的 技术 手工 编写 了 一 个 C 语 
言 扩展 版 本 : 


void clip(double *a, int n, double min, double max, double *out) { 
double x; 








for (; n >= 0; n--, at+, out++) { 
X = *a; 


*out = x > max ? max : (x < min ? min: x); 
} 


这 里 并 没有 给 出 扩展 代码 。 但 是 经 过 测试 后 ， 我 们 发 现 手工 打造 的 C 扩展 代码 却 比 由 
Cython 创建 出 的 扩展 函数 要 慢 10%。 底 线 就 是 ，Cython 生成 的 代码 运行 速度 比 想象 的 
还 要 快 很 多 。 


解决 方案 中 给 出 的 代码 还 可 以 做 几 个 扩展 。 针 对 特定 类 型 的 数组 操作 ， 释 放 GIL 使 得 
多 个 线程 能 够 并 行 运行 是 很 有 意义 的 。 为 了 做 到 这 点 ， 修 改 代码 使 其 包含 with nogil: 
语句 : 


@cython.boundscheck (False) 


























@cython.wraparound (False) 


cpdef clip(double[:] a, double min, double max, double[:] out): 
if min > max: 
raise ValueError ("min must be <= max") 
if a.shape[0] != out.shape[0]: 
raise ValueError ("input and output arrays must be the same size") 
with nogil: 
for i in range(a.shape[0]): 


out [i] = (a[i] if a[i] < max else max) if a[i] > min else min 


如 果 想 编写 一 个 能 操作 二 维 数组 的 版 本 ， 下 面 是 一 种 解决 方案 : 


@cython.boundscheck (False) 
































@cython.wraparound (False) 
cpdef clip2d(double[:,:] a, double min, double max, double[:,:] out): 
if min > max: 
raise ValueError ("min must be <= max") 
for n in range(a.ndim): 
if a.shape[n] != out.shape[n]: 
raise TypeError("a and out have different shapes") 
for i in range(a.shape[0]): 
for j in range(a.shape[1]): 
if a[i,j] < min: 


out [i,j] = min 
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elif a[i,j] > max: 
out [i,j] = max 
else: 


out [i,j] = ali,j] 


希望 读者 看 到 这 里 时 不 会 感到 迷惑 。 本 节 所 有 给 出 的 代码 都 不 会 特定 于 任何 一 种 数组 
库 (例如 NumPy )。 这 使 得 代码 有 着 非常 好 的 灵活 性 。 但 是 同样 值得 注意 的 是 ,一 旦 牵 
涉 到 多 维 数组 、 步 进 、 偏 移 以 及 其 他 的 因素 ， 那 么 对 数组 的 处 理 就 会 变 得 更 加 复杂 。 
这 些 主题 超出 了 本 节 的 范围 ,但 是 更 多 信息 可 以 在 PEP 3118 (http://www.python.org/dev/ 
peps/pep-3118 ) 中 找到 。Cython 文档 中 关于 类 型 化 内 存 视图 (http://docs.cython.org/src/ 
userguide/memoryviews.html ) 的 章节 也 同样 值得 阅读 。 









































15.12 ”把 函数 指针 转换 为 可 调用 对 象 


15.12.1 问题 

我 们 已 经 获取 了 某 个 C 函数 的 内 存 地 址 ,但 是 想 将 其 转换 成 一 个 Python 的 可 调用 对 象 ， 
这 样 我 们 可 以 把 它 当 做 扩展 函数 使 用 。 

15.12.2 解决 方案 


ctypes 模块 可 用 来 创建 包装 任意 内 存 地址 的 可 调用 对 象 。 下 面 的 示例 展示 了 如 何 获取 一 
个 C 函数 的 底层 原始 地 址 ， 以 及 如 何 将 其 转换 成 一 个 可 调用 对 象 : 


>>> import ctypes 











>>> lib = ctypes.cdll.LoadLibrary (None) 

>>> # Get the address of sin() from the C math library 
>>> addr = ctypes.cast(lib.sin, ctypes.c_void_p) .value 
>>> addr 

140735505915760 


>>> # Turn the address into a callable function 

>>> functype = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double) 
>>> func = functype (addr) 

>>> func 


<CFunctionType object at 0x1006816d0> 


>>> # Call the resulting function 
>>> func (2) 

0.9092974268256817 

>>> func (0) 

0.0 

>>> 
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15.12.3 tit 

要 创建 一 个 可 调用 对 象 ， 必 须 首先 创建 一 个 CFUNCTYPE 实例 。CFUNCTYPEO 的 第 一 
个 参数 是 返回 类 型 ， 接 下 来 的 参数 就 是 原始 函数 的 参数 类 型 。 一 旦 定义 了 函数 类 型 ， 
就 用 它 来 包装 一 个 整数 内 存 地 址 以 此 创建 出 一 个 可 调用 对 象 。 得 到 的 结果 对 象 就 可 以 
通过 ctypes 像 任 何 普通 函数 一 样 进行 访问 了 。 
本 节 讨 论 的 内 容 可 能 看 起 来 相当 隐 星 也 非常 底层 。 然 而 ， 对 于 程序 和 库 来 说 ， 利 用 像 
LLVM 库 中 使 用 的 即时 编译 (just in-time compilation ) 这 类 高 级 代码 生成 技术 也 变 得 越 
来 越 普遍 了 。 

例如 ， 下 面 这 样 一 个 简单 的 示例 使 用 llvmpy 扩展 (http:Wwww.llvmpy.org ) 来 创建 一 个 
小 的 汇编 函数 , 获取 一 个 指向 该 函数 的 指针 , 然后 将 其 转换 为 一 个 Python 可 调用 对 象 : 


>>> from llvm.core import Module, Function, Type, Builder 










































































>>> mod = Module.new('example') 
>>> f = Function.new(mod,Type.function(Type.double(), \ 
Type.double(), Type.double()], False), 'foo') 
>>> block = f.append_basic_block('entry') 

>>> builder = Builder.new (block) 


>>> x2 = builder.fmul(f.args[0],f.args[0]) 





>>> y2 = builder.fmul(f.args[1],f.args[1] 





>>> r = builder. fadd(x2,y2) 

>>> builder. ret (r) 

<llvm.core.Instruction object at 0x10078e990> 

>>> from llvm.ee import ExecutionEngine 

>>> engine = ExecutionEngine.new (mod) 

>>> ptr = engine.get_pointer_to_function (f) 

>>> ptr 

4325863440 

>>> foo = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double, ctypes.c_double) (ptr) 


>>> # Call the resulting function 
>>> foo(2,3) 
13.0 


>>> foo (4,5) 





>>> foo(1,2) 





不 用 多 说 ,如果 在 这 个 层次 上 出 任何 差错 的 话 将 导致 Python 解释 器 “ 死 于 非 命 ”。 请 记 
住 ， 我 们 正在 直接 同 机 器 的 内 存 地 址 和 原生 机 器 码 打交道 ， 而 不 是 Python 函数 。 
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15.13 把 以 NULL 结尾 的 字符 串 传 给 C 库 


15.13.1 问题 
我 们 正在 编写 的 扩展 模块 需要 把 以 NULL 结尾 的 字符 串 传 给 C 库 。 但 是 ， 我 们 并 不 能 
完全 确定 如 何 通过 Python 的 Unicode 字符 串 实现 来 做 到 这 点 。 


15.13.2 ”解决 方案 
许多 C 库 中 包含 的 函数 都 把 以 NULL 结尾 的 字符 串 类 型 声明 为 char *。 考 虑 如 下 的 C 
函数 ， 我 们 将 用 它 作为 说 明和 测试 的 例子 : 
void print_chars(char *s) { 
while (*s) { 


printf("s2x ", (unsigned char) *s); 
S++; 

















} 
printf ("\n"); 


a, 


Po hls 


这 个 函数 只 是 简单 地 打印 出 每 个 字符 的 十 六 进 制 表示 ， 这 样 可 以 方便 地 对 传人 的 字符 
串 进行 调试 。 例 如 : 

print_chars("Hello"); // Outputs: 48 65 6c 6c 6f 
要 从 Python 中 调用 这 样 一 个 C 函数 ， 有 好 几 种 选择 。 第 一 ， 可 以 使 用 转换 代码 “y” 限 
制 函 数 PyArg_ParseTupleO 只 操作 字 节 ， 示 例如 下 : 


static PyObject *py print_chars (PyObject *self, PyObject *args) { 
char *s; 





if (!PyArg ParseTuple (args, "y", &s)) { 
return NULL; 
} 
print_chars (s); 
Py RETURN NONE; 
} 


4S BAIS AR RR LMR P ARETE. AFARA T NULL 字 节 的 字 节 流 是 如 
何 处 理 的 ， 以 及 传人 Unicode 字符 串 时 会 被 拒绝 执行 : 

>>> print_chars(b'Hello World') 

48 65 6c 6c 6f 20 57 6f 72 6c 64 


>>> print_chars (b'Hello\x00World') 
Traceback (most recent call last): 














C 语言 扩展 659 


File "<stdin>", line 1, in <module> 
TypeError: must be bytes without null bytes, not bytes 
>>> print_chars('Hello World') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
TypeError: 'str' does not support the buffer interface 
>>> 


如 果 想 传人 Unicode 字符 串 ， 可 以 使 用 格式 化 代码 “s”， 示 例如 下 : 


static PyObject *py print chars (PyObject *self, PyObject *args) { 
char *s; 


if (!PyArg_ParseTuple(args, "s", &s)) { 
return NULL; 

} 

print_chars(s); 

Py _RETURN_NONE; 


当 使 用 上 面 的 函数 时 ,会 自动 将 所 有 的 字符 串 转 换 为 以 NULL 结尾 且 以 UTF-8 编码 的 
形式 。 示 例如 下 : 


>>> print_chars('Hello World') 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars('Spicy Jalape\u00f1lo') # Note: UTF-8 encoding 
53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f 
>>> print_chars('Hello\x00World') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 




















TypeError: must be str without null characters, not str 
>>> print_chars(b'Hello World') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 





TypeError: must be str, not bytes 
>>> 











如 果 基 于 某 些 原 因 , 我 们 需要 直接 同 PyObject* 打 交道 而 不 能 使 用 PyArg_ParseTuple0, 下 面 
的 代码 示例 告诉 我 们 如 何 从 字 节 流 和 字符 串 对 象 中 检查 并 提取 出 一 个 合适 的 char * 引 用 : 


/* Some Python Object (obtained somehow) */ 
PyObject *obj; 








/* Conversion from bytes */ 
{ 
char *s; 
s = PyBytes_AsString(o); 
if (!s) { 
return NULL; /* TypeFrror already raised */ 
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} 


print_chars(s); 


/* Conversion to UIF-8 bytes from a string */ 


PyObject *bytes; 

char *s; 

if (!PyUnicode_Check(obj)) { 
PyErr_SetString(PyExc_TypeError, "Expected string"); 
return NULL; 

} 

bytes = PyUnicode_AsUTF8String (obj); 

s = PyBytes_AsString (bytes); 

print_chars (s); 

Py_DECREF (bytes) ; 

} 








上 面 这 两 种 转换 都 可 保证 接受 以 NULL 结尾 的 数据 ， 但 是 它们 没有 检查 是 否 在 字符 串 中 间 
插入 了 NULL 字 节 的 情况 。 因 此 ， 如 果 这 对 我 们 而 言 很 重要 的 话 ， 那 就 需要 自己 做 检查 了 。 


15.13.3 ”讨论 





如 果 可 能 的 话 ， 应 该 避免 编写 出 依赖 以 NULL 结尾 的 字符 串 的 代码 ， 因 为 Python 对 字 
符 串 并 没有 这 样 的 要 求 。 如 果 可 能 的 话 ， 处 理 字 符 串 时 使 用 指针 并 配合 使 用 表示 其 大 








小 的 参数 几乎 总 是 更 好 的 选择 。 然 而 ， 有 时 候 我 们 不 得 不 去 处 理 
的 话 就 别 无 选择 了 。 








DRAR C 代码 ， 那 样 





尽管 上 述 技术 很 容易 使 用 , 但 在 PyArg ParseTuple0 中 使 用 格式 化 代码 “s” 时 会 有 一 些 
内 存 方面 的 开销 ， 而 这 是 很 容易 被 忽略 的 地 方 。 当 编写 代码 时 ， 如 果 使 用 了 上 述 转换 
规则 ， 则 会 创建 一 个 UTF-8 编码 的 字符 串 ， 并 且 会 永久 将 其 关联 到 原始 的 字符 串 对 象 
上 。 如 果 原 始 字 符 串 中 包含 有 非 ASCII 字符 ， 那 么 就 会 使 得 字符 串 的 大 小 增加 ， 直 到 















































被 垃圾 收集 机 制 处 理 为 止 。 示 例如 下 : 


>>> import sys 
>>> s = 'Spicy Jalape\u00flo' 





>>> sys.getsizeof(s) 

87 

>>> print_chars(s) # Passing string 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f 
>>> sys.getsizeof(s) # Notice increased size 
103 

>>> 








如 果 对 这 种 内 存 使 用 的 增加 需要 纳入 考虑 ， 应 该 使 用 PyUnicode_AsUTF8StringO 函 数 来 
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重新 编写 C 扩展 代码 ， 示 例如 下 : 


static PyObject *py print chars (PyObject *self, PyObject *args) { 
PyObject *o, *bytes; 
char *s; 


if (!PyArg ParseTuple(args, "U", &0)) { 
return NULL; 

} 

bytes = PyUnicode_AsUTF8String(o) ; 

s = PyBytes AsString (bytes); 

print_chars(s); 

Py DECREF (bytes) ; 

Py_RETURN_NONE; 

} 


按照 上 面 这 样 修改 ，UTF-8 编码 的 字符 串 会 根据 需要 进行 创建 ， 但 是 会 在 使 用 完毕 之 
后 丢弃 。 下 面 是 修改 过 的 版 本 产生 的 行为 ， 可 以 看 到 字符 串 的 大 小 并 没有 增加 : 


>>> import sys 
>>> s = 'Spicy Jalape\u00flo' 





>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f 
>>> sys.getsizeof(s) 

87 

>>> 






































如 果 打 算 把 以 NULL 结尾 的 字符 串 传 递 给 通过 ctypes 包装 的 函数 ， 请 注意 ctypes 只 允 
许 传 人 字 节 ， 而 且 不 会 检查 传人 的 字 节 中 是 否 有 插入 NULL。 示 例如 下 : 


>>> import ctypes 








>>> lib = ctypes.cdll.LoadLibrary("./libsample.so") 
>>> print_chars = lib.print_chars 

>>> print_chars.argtypes = (ctypes.c_char_p,) 

>>> print_chars(b'Hello World') 

48 65 6c 6c 6f 20 57 6f 72 6c 64 

>>> print_chars (b'Hello\x00World') 

48 65 6c 6c 6f 
>>> print_chars('Hello World') 








Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 





ctypes.ArgumentError: argument 1: <class 'TypeError'>: wrong type 
>>> 


如 果 想 传人 字符 串 而 不 是 字 节 流 ， 则 需要 手动 先 执行 一 次 UTF-8 编码 。 示 例如 下 : 
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>>> print_chars('Hello World'.encode('utf-8') ) 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> 





对 于 其 他 的 C 扩展 模块 编写 工具 (例如 Swig. Cython ), 是 否 要 使 用 它们 将 字符 串 传 递 
给 C 代码 则 需要 做 仔细 的 研究 。 





15.14 把 Unicode 字符 串 传 递 给 C 库 


15.14.1 问题 


我 们 正在 编写 的 扩展 模块 需要 把 Python 字符 串 传递 给 一 个 C 语言 编写 的 库 函 数 ， 而 这 
个 库 函 数 可 能 并 不 知道 该 如 何 恰当 地 处 理 Unicode, 


15.14.2 解决 方案 

这 里 需要 考虑 的 问题 比较 多 ,但 是 主要 问题 在 于 已 有 的 C 库 并 不 能 理解 Python 原生 的 
Unicode 字符 串 表 示 。 因 此 ， 我 们 的 挑 成 就 是 将 Python 字符 串 转换 为 让 C 库 可 以 更 容 
易 理 解 的 形式 。 

为 了 更 好 地 说 明 这 个 问题 ， 下 面 给 出 了 两 个 C 函数 。 出 于 调试 和 实验 的 目的 ， 这 两 个 
函数 操作 字符 串 数据 并 产生 输出 。 其 中 一 个 函数 使 用 的 是 以 char * int 形式 给 出 的 字 节 
流 ， 而 另 一 个 函数 使 用 的 是 以 wehar t*, int 形式 给 出 的 宽 字 符 。 示 例如 下 : 


void print_chars(char *s, int len) { 












































int n = 0; 
while (n < len) { 
printf ("32x ", (unsigned char) s[n]); 
ntt} 
} 
printf("\n"); 
} 


void print_wchars(wchar_t *s, int len) { 
int n = 0; 
while (n < len) { 
printf("Sx ", s[n]); 
ntt; 
} 
printf ("\n"); 
} 


对 于 操作 字 节 流 的 函数 print chars(0) 来 说 ， 需 要 将 Python 字符 串 转换 成 一 个 合适 的 字 节 
码 ， 例 如 UTF-8。 示 例如 下 : 








& 
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static PyObject *py_print_chars (PyObject *self, PyObject *args) { 
char *s; 
Py_ssize t len; 


if (!PyArg ParseTuple(args, "s#", &s, &len)) { 
return NULL; 
} 


print_chars(s, len); 
Py RETURN_NONE; 
} 


对 于 可 以 处 理 机 器 上 原生 的 wchar t 类 型 的 库 函 数 来 说 ， 可 以 像 这 样 编写 扩展 代码 : 


static PyObject *py_print_wchars (PyObject *self, PyObject *args) { 

















wchar 七 *s; 
Py_ssize t len; 


if (!PyArg ParseTuple(args, "u#", &s, &len)) { 
return NULL; 
} 
print_wchars(s,len) ; 
Py RETURN_NONE; 
} 


下 面 的 交互 式 会 话说 明了 这 些 函 数 是 如 何 工 作 的 : 


>>> s = 'Spicy Jalape\u00flo' 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f 
>>> print_wchars (s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 fl 6f 
>>> 


请 仔细 观察 基于 字 节 流 的 函数 print_chars0 是 如 何 接受 UTF-8 编码 的 数据 的 ， 而 
print_wchars() 是 如 何 接 受 Unicode 码 点 值 的 ( Unicode code point value )。 





15.14.3 ”讨论 

在 正式 讨论 前 ， 应 该 先 研究 一 下 我 们 打算 访问 的 C 函数 库 有 哪些 本 质 特性 。 对 于 许多 
C 库 来 说 ,传递 字 节 流 比 传递 字符 串 要 显得 更 有 意义 些 。 要 做 到 这 点 , 可 以 使 用 下 面 的 
转换 代码 ; 


static PyObject *py_print_chars (PyObject *self, PyObject *args) { 














char *s; 
Py_ssize t len; 


/* accepts bytes, bytearray, or other byte-like object */ 
if (!PyArg ParseTuple(args, "y#", &s, &len)) { 
return NULL; 
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} 
print_chars(s, len); 
Py_RETURN_NONE; 

} 


如 果 仍 然 决定 传递 字符 串 ， 我 们 需要 了 解 到 Python 3 使 用 的 


字符 串 表 示 虽 然 适应 性 很 








强 ， 但 并 不 能 全 部 直接 映射 到 使 用 标准 的 char * 或 wchar t * 类 型 的 C 库 中 去 ， 有 关 这 
方面 的 细节 可 参考 PEP 393 ( http://www.python.org/dev/peps/pep-0393 )。 因 此 ， 要 把 字 








符 串 数据 传递 给 C， 那 么 几乎 总 是 要 做 某 种 形式 的 转换 才 行 。 在 PyArg_ParseTuple0 中 
使 用 格式 化 代码 s# 和 u# 可 以 安全 地 执行 这 样 的 转换 。 


可 能 存在 的 缺点 就 是 这 样 的 转换 会 导致 原始 字符 





行 转换 时 ， 经 过 转换 的 数据 会 做 一 份 拷贝 关联 到 原始 字符 串 对 象 上 ， 这 样 稍 后 可 以 
到 重用 。 可 以 通过 下 面 的 交互 式 会 话 来 观察 这 个 效果 : 


>>> import sys 

>>> s = 'Spicy Jalape\u00flo' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f 
>>> sys.getsizeof(s) 

103 

>>> print_wchars (s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 f1 6f 
>>> sys.getsizeof(s) 

163 

>>> 


串 对 象 的 大 小 永久 性 的 增加 。 每 当 


进 
得 














如 果 字 符 串 数据 总 量 很 小 ， 这 种 开销 就 无 关 紧 要 
量 的 文本 处 理 ， 很 可 能 就 希望 能 够 避免 这 种 开销 
种 替代 实现 ， 这 里 就 避免 了 这 些 内 存 开销 : 











。 但 是 如 果 需 要 在 扩展 模块 中 进行 大 
。 下 面 对 第 一 个 扩展 函数 给 出 了 男 一 





static PyObject *py print chars (PyObject *self, PyObject *args) { 


PyObject *obj, *bytes; 
char *s; 
Py_ssize t len; 


if (!PyArg ParseTuple(args, "U", &obj)) { 
return NULL; 

} 

bytes = PyUnicode_AsUTF8String(ob}) ; 

PyBytes_AsStringAndSize (bytes, &s, &len); 

print_chars(s, len); 

Py DECREF (bytes) ; 

Py_RETURN_NONE; 
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要 避免 wchar_t Ab BRA AARP ABU RE. 在 内 部 , Python 使 用 最 有 效 的 表示 来 存储 
字符 串 。 例 如 ， 使 用 字 节 数组 来 存储 仅 包 含 ASCI 的 字符 串 ， 但 是 ， 如 果 字 符 串 包含 




















的 字符 范围 是 在 U+0000~U+FFFF 之 间 , 则 需要 使 用 两 个 字 节 来 表示 。 











由 于 不 存在 数据 


的 单一 表示 ， 因 此 无 法 将 内 部 数组 转换 为 wchar_t *， 更 别 指望 它 会 奏效 。 相 反 ， 必 须 
创建 一 个 wchar_t 数组 ， 然 后 将 文本 复制 进来 。PyArg_ParseTuple( ) 的 “u#” 格 式 代 码 
会 执行 该 操作 ， 但 是 会 以 牺牲 效率 为 代价 〈 它 将 生成 的 副本 附加 到 字符 串 对 象 )。 


如 果 想 避免 这 一 长 期 的 内 存 开销 ， 唯 一 的 选择 是 将 Unicode 数据 复制 到 一 个 临时 的 数 















































组 ， 将 其 传递 给 C 库 函 数 ， 然 后 释放 该 数组 。 下 面 是 一 个 可 能 的 实现 : 





static PyObject *py_print_wchars (PyObject *self, PyObject *args) { 
PyObject *obj; 

wchar_t *s; 

Py_ssize_t len; 


if (!PyArg_ParseTuple(args, "U", &obj)) { 

return NULL; 

} 

if ((s = PyUnicode_AsWideCharString(obj, &len)) == NULL) { 
return NULL; 

} 

print_wchars(s, len); 

PyMem_Free(s) ; 

Py_RETURN_NONE; 

} 


在 这 个 实现 中 ，PyUnicode_AsWideCharString0 针 对 wchar t 字符 创建 了 一 个 临时 的 组 
冲 区 ,并 将 数据 拷贝 到 这 里 。 这 个 缓冲 区 会 在 传递 给 C 之 后 释放 掉 。 在 写作 本 小 节 时 ， 
关于 这 个 行为 似乎 有 一 个 bug, 可 以 在 Python 的 问题 页 面 (bugs.python.org/issue16254 ) 


中 找到 相关 的 描述 。 





如 果 出 于 某 些 原因 知道 C 库 会 以 其 他 非 UTF-8 编码 的 形式 来 处 理 数据 ， 我 们 可 以 强 第 





Python 执行 适当 的 转换 ， 这 可 以 通过 下 面 的 扩展 函数 来 完成 : 


static PyObject *py print chars (PyObject *self, PyObject *args) { 
char *s = 0; 
int len; 
if (!PyArg ParseTuple(args, "es#", "encoding-name", &s, &len)) { 
return NULL; 
} 
print_chars(s, len); 
PyMem Free (s); 
Py_RETURN_NONE; 
} 








i 
rs 











最 后 但 同样 重要 的 是 , 如 果 想 直接 同 Unicode 字符 串 中 的 字符 打交道 , 下 面 给 出 的 示例 








说 明了 其 中 的 底层 访问 机 制 : 
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static PyObject *py_print_wchars (PyObject *self, PyObject *args) { 
PyObject *obj; 
int n, len; 
int kind; 
void *data; 


if (!PyArg ParseTuple(args, "U", &obj)) { 
return NULL; 

} 

if (PyUnicode_READY(obj) < 0) { 
return NULL; 

} 

len = PyUnicode_GET_LENGTH (obj); 

kind = PyUnicode_KIND (obj); 

data = PyUnicode_DATA(obj) ; 








for (n= 0; n < len; n++) { 
Py_UCS4 ch = PyUnicode_READ(kind, data, n); 
printf ("3x ", ch); 
} 
printf ("\n"); 
Py_RETURN_NONE; 
} 





在 上 述 代码 中 , Z PyUnicode KINDO 和 PyUnicode_ DATAO 是 同 Unicode 的 宽度 可 变 存 
储 相关 的 ， 在 PEP 393 中 可 找到 相关 描述 。 变 量 kind 对 底层 的 存储 信息 (8 位 、16 位 
或 32 位 ) 进行 编码 , 而 变量 data 则 指向 缓冲 区 。 事实 上 ,只 要 把 它们 传递 给 PyUnicode_ 
READ0O 宏 即 可 ,不 需要 再 做 任何 处 理 。 

最 后 再 多 说 几 句 ， 当 从 Python 中 把 Unicode 字符 串 传 递 给 C 时 ， 应 该 尽 可 能 选择 简单 
的 方案 。 如 果 在 UTF-8 编码 和 宽 字 符 中 选择 ， 那 就 选 UTF-8。 提 供 对 UTF-8 的 支持 似 
平 更 加 普遍 ， 麻 烦 也 会 少 些 ， 解 释 器 对 UTF-8 的 支持 也 更 好 。 最 后 ， 请 务必 查看 处 理 
Unicode 的 相关 文档 ( https://docs.python.org/3/c-api/Unicode.html ). 














x 





























15.15 把 C 字符 串 转换 到 Python 中 


15.15.1 问题 
我 们 想 把 C 字符 串 转换 为 Python 字 节 流 或 者 字符 串 对 象 。 
15.15.2 ”解决 方案 


对 于 以 char *, int 形式 表示 的 C 字符 串 ， 我 们 必须 决定 是 否 要 将 它们 以 原始 字 节 串 或 者 
Unicode 字符 串 的 形式 来 表示 。 字 节 对 象 可 以 通过 Py_BuildValue() 来 构建 ， 示 例如 下 : 
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char *s; /* Pointer to C string data */ 
int len; /* Length of data */ 


/* Make a bytes object */ 
PyObject *obj = Py BuildValue("y#", s, len); 


如 果 想 构建 一 个 Unicode 字符 串 ， 而 且 知 道 s 指向 的 数据 是 以 UTF-8 来 编码 的 ， 则 可 
以 使 用 如 下 的 代码 来 完成 : 

PyObject *obj = Py BuildValue("s#", s, len); 
如 果 s 指向 的 数据 是 以 其 他 已 知 的 格式 来 编码 的 ， 可 以 通过 PyUnicode Decode0 来 创建 
字符 串 对 象 


PyObject *obj = PyUnicode_Decode(s, len, "encoding", "errors"); 





























/* Examples /* 
obj = PyUnicode_Decode(s, len, "latin-1", "strict"); 
obj = PyUnicode_Decode(s, len, "ascii", "ignore"); 


如 果 刚 好 有 一 个 以 wchar t *, len 表示 的 宽 字 符 串 ， 这 里 就 有 一 些 选 择 。 首 先 ， 可 以 像 
这 样 使 用 Py BuildValue() : 


wchar t *w; /* Wide character string */ 
int len; /* Length */ 











PyObject *obj = Py BuildValue("u#", w, len); 


其 次 ， 可 以 直接 使 用 PyUnicode FromWideChar() : 





PyObject *obj = PyUnicode FromWideChar (w, len); 


对 于 宽 字 符 串 来 说 ， 不 会 对 字符 数据 做 任何 解释 一 一 这 里 会 假设 把 原始 的 Unicode 码 点 
直接 转换 到 Python 中 。 


15.15.3 Wit 

把 字符 串 从 C 转换 到 Python 所 遵循 的 准则 同 IO 一 样 。 即 ，C 中 的 数据 必须 依据 某 个 
编码 规则 显 式 将 其 解码 为 字符 串 。 常 见 的 编码 包括 ASCI, Latin-1 以 及 UTF-8。 如 果 
不 能 百分之百 地 确定 编码 格式 或 者 数据 本 身 是 二 进 制 的 ， 那 么 最 好 的 选择 就 是 将 字符 
串 编码 为 字 节 流 。 
当 创 建 对 象 时 ，Python 总 是 会 拷贝 我 们 提供 的 字符 串 数 据 。 如 果 有 必要 的 话 ， 之 后 
释放 C 字符 串 的 任务 就 落 在 我 们 的 身上 。 此 外 ,为 了 获得 更 好 的 可 靠 性 ， 在 创建 字 
符 串 时 应 该 同时 使 用 指针 和 表示 字符 串 大 小 的 参数 ,而 不 是 依赖 于 以 NULL 结尾 的 
数据 。 
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15.16 ” 同 编 码 方式 不 确定 的 C 字符 串 打 交道 


15.16.1 问题 

我 们 需要 在 C 和 Python 之 间 来 回转 换 字符 串 ,但 是 字符 串 在 C 中 的 编码 方式 是 不 确定 的 
或 者 说 是 未 知 的 。 例 如 ， 假 设 C 中 的 数据 应 该 是 按照 UTF-8 来 编码 的 ， 但 这 个 约定 并 
没有 得 到 强制 执行 。 我 们 想 编写 代码 能 够 以 优雅 的 方式 处 理 有 问题 的 数据 ， 在 处 理 的 
过 程 中 不 会 导致 Python 骨 溃 ， 也 不 会 破坏 字符 串 数据 。 


15.16.2 ”解决 方案 
下 面 的 C 函数 以 及 数据 可 用 来 说 明 这 个 问题 的 本 质 : 


/* Some dubious string data (malformed UTF-8) */ 
const char *sdata = "Spicy Jalape\xc3\xblo\xae"; 
int slen = 16; 















































/* Output character data */ 
void print_chars(char *s, int len) { 
int n = 0; 
while (n < len) { 
printf ("32x ", (unsigned char) s[n]); 
n++; 
} 
printf ("\n"); 
} 


在 上 述 代码 中 , 字符 串 sdata 将 UTF-8 和 格式 不 正确 的 数据 混合 在 了 一 起 。 然 而 ， 如 果 
用 户 在 C 中 调用 print_chars(sdata, slen) ， 却 能 够 正常 工作 。 


现在 假设 我 们 想 将 sdata 的 内 容 转换 为 Python 字符 串 。 进 一 步 假 设 我 们 想 稍 后 再 把 这 个 
Python 字符 串通 过 扩展 模块 传 回 给 print_chars0 函 数 。 下 面 给 出 的 做 法 可 以 保证 就 算 有 
局 码 问题 存在 ， 也 能 够 完全 保留 原始 数据 不 变 。 


/* Return the C string back to Python */ 
static PyObject *py_retstr(PyObject *self, PyObject *args) { 
if (!PyArg ParseTuple(args, "")) { 
return NULL; 
} 
return PyUnicode_Decode(sdata, slen, "utf-8", "surrogateescape") ; 


} 


























20 

















/* Wrapper for the print_chars() function */ 
static PyObject *py print_chars (PyObject *self, PyObject *args) { 
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PyObject *obj, *bytes; 
char *s = 0; 
Py_ssize t len; 


if (!PyArg_ParseTuple(args, "U", &obj)) { 
return NULL; 
} 


if ((bytes = PyUnicode_AsEncodedString (obj, "utf-8", "surrogateescape") ) 
== NULL) { 
return NULL; 
} 
PyBytes_AsStringAndSize (bytes, &s, &len); 
print_chars(s, len); 
Py_DECREF (bytes) ; 
Py _RETURN_NONE; 
} 


如 果 在 Python 中 尝试 调用 这 些 函 数 ， 结 果 是 这 样 的 : 


>>> s = retstr() 

>>> s 

"Spicy Jalapefio\udcae' 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 bl 6f ae 
>> 





仔细 观察 就 会 发 现 有 问题 的 字符 串 在 编码 为 Python 字符 串 时 没有 出 现 错误 ， 而 且 当 将 
其 传 回 到 C 中 时 会 转换 回 字 节 串 ， 而 且 编 码 方式 与 原始 的 C 字符 串 一 模 一 样 。 


15.16.3 ”讨论 


本 节 解 决 了 在 扩展 模块 中 处 理 字 符 串 时 微妙 而 又 潜在 的 恼人 问题 。 即 ，C 字符 串 在 扩展 
模块 中 可 能 不 会 遵循 严格 的 Unicode 编码 /解码 规则 ,而 这 正 是 Python 本 来 所 期 望 的 。 
此 ， 有 可 能 会 出 现 将 有 问题 的 C 数据 传人 到 Python 中 的 情况 。 这 方面 有 一 个 好 的 例子 ， 
那 就 是 像 文件 名 这 种 与 系统 底层 调用 相关 的 C 字符 串 。 例 如 ， 如 果 系 统 调用 返回 了 一 个 
有 问题 的 字符 串 给 Python 解释 器 ， 而 解释 器 不 能 正确 地 进行 解码 ， 此 时 会 发 生 什么 呢 ? 
一 般 来 说 ，Unicode 方面 的 错误 通常 会 通过 指定 某 种 错误 方案 (error policy ) 来 处 理 ， 
例如 严格 (strict )、 忽 略 ( ignore )、 替 换 (replace ) 或 者 其 他 类 似 的 方案 。 但 是 ， 这 些 
方案 的 缺点 在 于 它们 会 不 可 挽回 地 破坏 原始 字符 串 的 内 容 。 例 如 ， 如 果 示 例 中 有 问题 
的 数据 采用 以 上 这 些 方案 进行 解码 ， 最 终 会 得 到 这 样 的 结果 : 

>>> raw = b'Spicy Jalape\xc3\xb1lo\xae' 

>>> raw.decode('utf-8', 'ignore') 




















wW 























"Spicy Jalapefio' 
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>>> raw.decode('utf-8', 'replace') 
"Spicy Jalapefio?' 
>>> 








而 代理 转 义 〈surrogateescape ) 错误 处 理 方案 会 接受 所 有 不 可 解码 的 字 节 ， 并 将 它们 转 
换 为 代理 对 的 低 半 部 (low-half ) (\udcXX， 这 里 XX 是 原始 字 节 值 )。 例 如 : 
>>> raw.decode('utf-8', 'surrogateescape') 


"Spicy Jalapefio\udcae' 
>>> 


像 \udcae 这 种 独立 的 低位 代理 字符 从 来 不 会 出 现在 有 效 的 Unicode 字符 中 。 因 此 ， 这 个 
字符 串 从 技术 上 来 说 是 个 非法 的 表示 。 事 实 上 ， 如 果 试 着 将 它 传 给 函数 并 执行 输出 ， 
就 会 得 到 编码 错误 : 


>>> s = raw.decode('utf-8', 'surrogateescape') 























>>> print (s) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
UnicodeEncodeError: 'utf-8' codec can't encode character '\udcae' 
in position 14: surrogates not allowed 
>>> 

















但 是 , 使 用 代理 转 义 的 主要 原因 在 于 这 么 做 能 够 让 有 问题 的 字符 串 从 C 传 到 Python, 
然后 再 传 回 到 C 中 时 不 破坏 任何 数据 。 当 字符 串 再 次 使 用 surrogateescape 进行 编码 时 ， 
代理 字符 将 转换 回 它们 原来 的 字 节 。 示 例如 下 : 


>>> S 























"Spicy Jalapefio\udcae' 

>>> s.encode('utf-8', 'surrogateescape') 
b'Spicy Jalape\xc3\xblo\xae' 

>>> 


一 般 来 说 ， 最 好 尽 可 能 避免 使 用 代理 编码 一 一 如 果 使 用 了 适当 的 编码 方式 ， 我 们 的 代 
码 将 更 加 可 靠 。 但是， 有 时 候 我 们 没 法 控制 数据 的 编码 ， 而 且 也 不 能 随意 忽略 或 者 蔡 
换 有 问题 的 数据 ， 因 为 其 他 函数 可 能 会 用 到 它们 。 本 节 讲 解 了 应 该 如 何 应 对 这 些 情况 。 
最 后 再 说 一 句 ， 许 多 与 系统 相关 的 Python 函数 ， 尤 其 是 那些 与 文件 名 、 环 境 变量 以 及 
命令 行 选 项 相关 的 函数 都 使 用 了 代理 编码 。 例 如 ， 如 果 某 个 目录 中 包含 有 不 可 解码 的 
文件 名 ， 而 我 们 针对 这 个 目录 使 用 像 os.listdir0 这 样 的 函数 ， 那 么 它 就 会 以 代理 转 义 的 
方式 返回 字符 串 。 相 关内 容 在 5.15 节 中 也 有 涉及 。 

PEP 383 ( http://www.python.org/dev/peps/pep-0383 ) 中 有 更 多 关于 本 节 提 到 的 问题 的 相 
关 信 息 ， 对 代理 转 义 的 错误 处 理 机 制 也 有 说 明 。 
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15.17 ”把 文件 名 传 给 C 扩展 模块 


15.17.1 问题 


我 们 需要 将 文件 名 传 给 C 扩展 函数 ， 但 是 需要 确保 文件 名 已 经 根据 系统 所 期 望 的 文件 
名 编码 方式 进行 了 编码 。 


15.17.2 ”解决 方案 
要 编写 一 个 扩展 函数 用 来 接收 文件 名 ， 可 以 使 用 下 面 的 代码 来 完成 : 


static PyObject *py get filename (PyObject *self, PyObject *args) { 
PyObject *bytes; 
char *filename; 




















Py_ssize t len; 

if (!PyArg_ParseTuple(args,"0&", PyUnicode_FSConverter, &bytes)) { 
return NULL; 

} 

PyBytes_AsStringAndSize (bytes, &filename, &len); 


/* Use filename */ 


/* Cleanup and return */ 
Py_DECREF (bytes) 
Py RETURN_NONE; 

} 


如 果 已 经 有 了 一 个 PyObject* 并 希望 将 其 转换 成 文件 名 ， 可 以 使 用 下 面 的 代码 完成 : 


PyObject *obj; /* Object with the filename */ 
PyObject *bytes; 
char *filename; 





Py ssize t len; 


bytes = PyUnicode_EncodeFSDefault (obj); 
pyBytes AsStringAndSize(bytes, &filename, &len); 


/* Use filename */ 





/* Cleanup */ 
Py DECREF (bytes) ; 


如 果 需 要 将 文件 名 再 返回 给 Python， 可 以 使 用 下 面 的 代码 : 


/* Turn a filename into a Python object */ 
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char *filename; /* Already set */ 
int filename len; /* Already set */ 


PyObject *obj = PyUnicode_DecodeFSDefaultAndSize (filename, filename_len) ; 


15.17.3 ”讨论 


以 可 移植 的 方式 来 处 理 文件 名 是 一 个 坏 手 的 问题 ， 最 好 把 这 个 问题 留 给 Python 来 解决 。 
如 果 我 们 把 本 节 提 到 的 技术 用 在 自己 的 扩展 代码 中 ， 那么 文件 名 的 处 理 方式 就 和 
Python 中 人 处 理 文 件 名 的 方式 保持 一 致 了 。 这 包括 对 字 方 的 编码 /解码 、 处 理 有 问题 的 字 
符 、 代 理 转 义 以 及 其 他 的 复杂 情况 。 


15.18 ”把 打开 的 文件 传 给 C 扩展 模块 


15.18.1 问题 

在 Python 中 有 一 个 打开 的 文件 对 象 ， 我们 需要 将 它 传递 给 C 扩展 代码 ， 在 扩展 模块 中 
使 用 这 个 文件 。 

15.18.2 解决 方案 


要 把 一 个 文件 转换 为 一 个 整数 表示 的 文件 描述 符 ， 可 以 使 用 PyObject_AsFileDescriptor() 
来 完成 。 示 例如 下 : 














PyObject *fobj; /* File object (already obtained somehow) */ 
int fd = PyObject AsFileDescriptor (fobj); 
if (fd < 0) { 


return NULL; 
} 


得 到 的 文件 描述 符 是 通过 在 fobj 上 调用 feno() 方 法 来 获取 的 。 因 此 ， 任 何以 这 种 方式 
暴露 出 描述 符 的 对 象 都 应 该 能 正常 工作 ( 即 ， 文 件 、 套 接 字 等 )。 
一 旦 有 了 文件 描述 符 ， 就 可 以 将 它 传递 给 各 种 同文 件 打交道 的 底层 C 函数 了 。 


如 果 需 要 将 一 个 整数 表示 的 文件 描述 符 转 换 回 Python 对 象 ， 可 以 使 用 PyFile_ 
FromFd()， 示 例如 下 : 























int fd; /* Existing file descriptor (already open) */ 
PyObject *fobj = PyFile FromFd(fd, "filename", "r",-1,NULL, NULL, NULL, 1) ; 


a 








函数 PyFile FromFdO 的 参数 正好 对 应 着 内 建 的 open0 函 数 。 这 里 的 NULL 表示 采用 默 


WAY encoding, errors 和 newline 设 定 。 
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15.18.3 ”讨论 

如 果 要 将 文件 对 象 从 Python 中 传递 给 C， 这 里 有 几 个 棘手 的 问题 需要 考虑 。 首 先 ，Python 
是 通过 io 模块 实现 自己 的 JJO 缓冲 处 理 的 。 在 将 任何 类 型 的 文件 描述 符 传递 给 C 之 前 ， 应 该 
首先 在 对 应 的 文件 对 象 上 刷新 VO 缓冲 的 。 否 则 ， 在 文件 流 上 可 能 会 出 现 数据 乱 序 的 情况 。 
其 次 ， 需 要 特别 注意 文件 的 归属 (ownership) 和 由 谁 负责 关闭 文件 的 问题 。 如 果 把 文件 描 
述 符 传递 给 C， 但 仍然 要 在 Python 中 使 用 这 个 文件 的 话 ， 需 要 确保 在 C 代码 中 不 会 意外 地 
关闭 了 文件 。 同 样 ,如 果 把 文件 描述 符 转 换 成 了 Python 文件 对 象 , 需要 明确 由 谁 来 负责 关 
ASCE. PyFile FromFd0 的 最 后 一 个 参数 设 为 1 就 表示 应 该 由 Python 来 关闭 这 个 文件 。 


如 果 要 创建 另 一 种 不 同类 型 的 文件 对 象 , 比 如 在 C 标准 IO 库 中 使 用 fdopen0 创 建 FILE 
* 对 象 , 需要 特别 小 心 。 这 么 做 会 引入 两 种 完全 不 同 的 IO 缓冲 层 到 IO 栈 中 (一 个 来 自 于 
Python 的 io 模块 ， 男 一 个 来 自 于 C 的 stdio) ÆC, 像 fclose0 这 样 的 操作 也 会 在 无 
意 中 关闭 将 来 要 在 Python 中 使 用 的 文件 。 如 果 要 选择 的 话 ， 应 该 让 扩展 代码 同 底层 的 
文件 描述 符 相 兼容 ， 而 不 是 采用 <stdioh> 中 提供 的 高 层 抽象 ( 比如 FILE * )。 



















































































15.19 Æ C 中 读 取 文件 型 对 象 


15.19.1 问题 

我 们 想 编写 C 扩展 代码 使 其 能 够 从 任意 的 Python 文件 型 对 象 中 读 取 数据 ( 例如 ， 普 通 
的 文件 、StringIO 对 象 等 )。 

15.19.2 ”解决 方案 

要 在 文件 型 对 象 上 读 取 数据 , 需要 重复 调用 对 象 的 read0 方 法 并 采取 适当 的 步骤 将 数据 
进行 解码 。 

下 面 给 出 了 一 个 C 扩展 函数 示例 ， 它 只 是 读 取 出 文件 型 对 象 上 的 所 有 数据 并 打印 到 标 
准 输 出 上 ， 这 样 可 以 看 到 结 


#define CHUNK SIZE 8192 









































/* Consume a "file-like" object and write bytes to stdout */ 
static PyObject *py_consume_file (PyObject *self, PyObject *args) { 
PyObject *obj; 
PyObject *read_meth; 
PyObject *result = NULL; 
PyObject *read_args; 


if (!PyArg_ParseTuple(args,"0", &obj)) { 
return NULL; 
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/* Get the read method of the passed object */ 
if ((read meth = PyObject_GetAttrString(obj, "read")) == NULL) { 
return NULL; 


/* Build the argument list to read() */ 
read_args = Py BuildValue("(i)", CHUNK_SIZE) ; 
while (1) { 

PyObject *data; 

PyObject *enc_data; 

char *buf; 


Py_ssize t len; 


/* Call read() */ 
if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 
goto final; 


/* Check for EOF */ 

if (PySequence_Length(data) == 0) { 
Py DECREF (data) ; 
break; 


/* Encode Unicode as Bytes for C */ 

if ((enc_data=PyUnicode AsEncodedString (data, "utf-8","strict"))==NULL) { 
Py_DECREF (data) ; 
goto final; 


/* Extract underlying buffer data */ 
PyBytes_AsStringAndSize(enc_data, &buf, &len); 


/* Write to stdout (replace with something more useful) */ 
write(1l, buf, len); 


/* Cleanup */ 
Py_DECREF (enc_data) ; 
Py_DECREF (data) ; 

} 

result = Py BuildValue(""); 


final: 

/* Cleanup */ 
Py_DECREF (read_meth) ; 
Py_DECREF (read_args) ; 
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return result; 


} 


要 测试 上 述 代码 ， 可 以 先 创 建 一 个 文件 型 对 象 比如 StringIO 实例 ， 然 后 将 其 传人 : 


>>> import io 
>>> f = io.StringI0('Hello\nWorld\n') 
>>> import sample 





>>> sample.consume_file(f) 
Hello 

World 

>>> 


15.19.3 讨论 

与 普通 的 系统 文件 不 同 ， 一 个 文件 型 对 象 并 不 一 定 是 围绕 着 底层 的 文件 描述 符 来 构建 
的 。 因 此 ， 不 能 用 C 库 中 的 普通 函数 来 访问 。 相 反 ， 我 们 需要 用 Python 的 C API 来 操 
纵 文件 型 对 象 ， 这 和 在 Python 中 工作 时 很 像 。 

在 解决 方案 中 ，read( 方 法 是 从 所 传人 的 对 象 中 提取 出 来 的 。 接 着 会 创建 一 个 参数 列表 ， 
然后 重复 传 给 PyObject_Call0 来 调用 方法 。 要 检测 文件 结尾 (EOF )， 我 们 使 用 
PySequence Length() 来 检查 返回 的 结果 长 度 是 否 为 0。 

对 于 所 有 的 VO 操作 ， 我 们 需要 关注 底层 的 编码 以 及 字 节 和 Unicode 之 间 的 区 别 。 本 节 给 
出 的 解决 方案 展示 了 如 何以 文本 模式 读 取 文件 , 并 将 得 到 的 结果 解码 为 可 以 在 C 程序 中 使 
用 的 字 节 编码 形式 。 如 果 想 以 二 进 制 模式 读 取 文件 ， 只 需要 做 很 少 的 修改 即 可 。 示 例如 下 : 


















































/* Call read() */ 

if ((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 
goto final; 

} 


/* Check for EOF */ 
if (PySequence_Length(data) == 0) { 
Py DECREF (data) ; 
break; 
} 
if (!PyBytes_Check(data)) { 
Py_DECREF (data) ; 
PyErr SetString(PyExc_I0Error, "File must be in binary mode"); 
goto final; 
} 


/* Extract underlying buffer data */ 
PyBytes_AsStringAndSize(data, &buf, &len); 
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本 节 中 最 棘手 的 地 方 在 于 内 存 管 理 。 当 使 用 PyObject * 变 量 时 , 需要 仔细 管理 引用 计数 
并 且 当 不 再 使 用 时 需要 进行 清理 。 示 例 中 出 现 的 Py_DECREFO 调 用 正 是 应 对 于 此 。 


本 节 以 一 种 通用 的 方式 来 编写 ， 这 样 可 以 把 技术 应 用 到 其 他 的 文件 操作 上 ， 比 如 说 写 
文件 。 例如， 要 写 入 数据 ， 只 要 从 文件 型 对 象 中 获取 write(0 方 法 ， 将 数据 转换 为 合适 
的 Python 对 象 ( 字 节 或 者 Unicode )， 然 后 调用 方法 将 数据 写 人 文件 即 可 。 

最 后 ， 尽 管 文件 型 对 象 通常 还 提供 了 其 他 的 方法 〈 比 如 readline), 、read_into0 )， 但 为 
了 获得 最 大 的 可 移植 性 , 最 好 还 是 专注 于 基本 的 read0 和 write() 方 法 。 对 于 C 扩展 代码 
来 说 ， 尽 量 保持 简单 通常 才 是 行 之 有 效 的 方案 。 



















































































15.20 MC 中 访问 可 迭代 对 和 象 


15.20.1 问题 

我 们 想 编写 C 扩展 代码 ， 用 来 访问 任意 的 Python 可 迭代 对 象 ， 比 如 列表 、 元 组 、 文 件 
或 者 生成 器 。 

15.20.2 ”解决 方案 

下 面 这 个 简单 的 C 扩展 函数 展示 了 如 何 去 访 问 一 个 可 迭代 对 象 中 的 元 素 : 


static PyObject *py_consume_iterable (PyObject *self, PyObject *args) { 
PyObject *obj; 
PyObject *iter; 
PyObject *item; 





if (!PyArg ParseTuple (args, "O", &obj)) { 
return NULL; 

} 

if ((iter = PyObject_GetIter(obj)) == NULL) { 
return NULL; 

} 

while ((item = PyIter_Next(iter)) != NULL) { 
/* Use item */ 


Py_DECREF (item) ; 
} 
Py_DECREF (iter) ; 
return Py BuildValue(""); 
} 


15.20.3 iit 
本 节 给 出 的 代码 概念 上 可 以 映射 为 Python 中 类 似 的 代码 。PyObject_GetIter0 调 用 和 
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Python 中 的 iter0 一 样 ， 都 是 用 来 获取 一 个 迭代 器 。PyIter Next() RAHAA EY 
next 方法 , 返回 迭代 器 中 的 下 一 个 元 素 , 如 果 没 有 更 多 元 素 可 返回 ， 则 返回 NULL. 请 
确保 自己 对 内 存 管理 多 加 小 心 获取 迭代 器 元 素 以 及 迭代 器 对 象 本 身 都 需要 调用 
Py_DECREFO 来 避免 内 存 泄露 。 




















15.21 排查 段 错 误 


15.21.1 问题 

Python 解释 器 由 于 有 段 错误 、 总 线 错误 、 非 法 访问 或 者 其 他 的 致命 错误 而 发 生 朋 演 。 我 
们 希望 有 一 个 Python traceback 能 够 告诉 我 们 出 现 错误 时 ， 程 序 运 行 到 了 哪 一 步 。 
15.21.2 ”解决 方案 

faulthandler 模块 可 帮 我 们 解决 这 个 问题 。 在 程序 中 包含 如 下 代码 : 


import faulthandler 
faulthandler.enable() 








此 外 ， 也 可 以 在 运行 Python 时 带 上 选项 -Xfaulthandler: 


bash % python3 -Xfaulthandler program.py 





























最 后 但 同样 重要 的 是 ， 我 们 可 以 设 定 环境 变量 PYTHONFAULTHANDLER. 
开启 faulthandler 功能 后 ，C 扩展 模块 中 出 现 的 致命 错误 将 在 Python 的 traceback 中 打印 
出 来 。 示 例如 下 : 


Fatal Python error: Segmentation fault 


Current thread 0x00007fff71106cc0: 
File "example.py", line 6 in foo 
File "example.py", line 10 in bar 


File "example.py", line 14 in spam 





File "example.py", line 19 in <module> 


Segmentation fault 
尽管 这 还 是 没有 告诉 我 们 错误 究竟 出 现在 C 代码 中 的 什么 地 方 ， 但 至 少 能 够 告诉 我 们 
错误 是 如 何 传 到 Python 中 来 的 。 
15.21.3 ”讨论 


当 出 现 错误 时 ，faulthandler 模块 会 告诉 我 们 Python 代码 的 调用 栈 回 湖 。 最 起 码 ， 这 会 
告诉 我 们 调用 的 最 顶层 的 扩展 函数 是 什么 。 再 结合 pdb 或 者 其 他 的 Python 调试 器 ， 就 
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能 追踪 调查 导致 出 现 这 个 错误 的 Python 代码 执行 流程 。 

faulthandler 模块 无 法 告诉 我 们 任何 来 自 于 C 代码 中 的 错误 。 正 因为 如 此 ， 我 们 需要 使 
用 一 个 传统 的 C 调试 器 ， 比 如 说 gdb。 但 是 ， 从 faulthandler 的 栈 回 溯 中 得 到 的 信息 应 
该 可 以 更 好 地 指引 排 错 的 方向 。 


应 该 要 指出 的 是 ， 某 些 在 C 中 出 现 的 特定 类 型 的 错误 可 能 不 太 容 易 得 到 恢复 。 比 如 ， 
如 果 某 个 C 扩展 模块 破坏 了 栈 或 者 程序 的 堆 ， 这 会 使 得 faulthandler 模块 无 法 正常 工作 ， 
所 以 此 时 得 不 到 任何 有 用 的 输出 〈 除 了 程序 骨 溃 之 外 )。 显然 ， 每 个 人 遇 到 的 情况 会 有 
所 不 同 。 
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附录 A 
补充 阅读 





现在 有 大 量 的 图 书 和 在 线 资源 可 供 我 们 学 习 和 实践 Python 编程 。 但 是 ， 如 果 和 本 书 
FE, 你 关注 的 重点 是 如 何 使 用 Python 3, 那么 要 找到 一 些 可 靠 的 资源 则 有 些 困难 。 因 为 
市 面 上 大 量 的 图 书 都 是 为 早期 的 Python 版 本 而 编写 的 。 
在 这 份 附录 中 ， 我 们 提供 了 一 些 材料 的 链接 ， 它 们 对 于 学 习 Python 3 编程 以 及 理解 本 
书 中 的 内 容 会 特别 有 用 。 这 绝 不 是 一 份 详尽 无 遗 的 资源 列表 ， 所 以 你 绝对 应 该 查 查 看 
这 些 资源 是 否 有 了 新 的 名 称 或 者 发 布 了 更 新 的 版 本 。 







































































A.1 在 线 资源 

http://docs.python.org 

如 果 你 需要 深入 了 解 语 言 的 细节 以 及 探究 各 个 模块 ， 那 么 不 必 多 说 ，Python 自 带 的 在 
线 文档 绝对 是 极 佳 的 资源 。 只 是 在 查阅 的 时 候 需 要 确保 你 看 的 是 Python 3 的 文档 ， 不 
是 之 前 的 老 版 本 。 

http://www.python.org/dev/peps 

如 果 想 理解 为 Python W A YS Ur REE AY BLA Be — E Wh AY SEA, BA PEPs 
( Python Enhancement Proposals ) 绝对 是 珍贵 的 参考 资源 。 尤 其 是 对 于 一 些 更 加 高 
级 的 语言 特性 更 是 如 此 。 在 写作 本 书 时 ， 我 们 发 现 PEP 往往 比 官方 文档 还 要 有 
帮助 。 

http://pyvideo.org 

这 里 有 大 量 的 视频 演讲 以 及 教程 ， 素 材 都 是 取 自 最 近 一 次 的 PyCon 大 会 、 用 户 组 会 议 
等 。 对 于 学 习 现 代 Python 开发 来 说 是 非常 优秀 的 资源 。 在 许多 视频 中 都 会 有 Python 的 
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核心 开发 者 现身说法 ， 讲 解 将 会 添加 到 Python 3 中 的 新 特性 。 
http://code.activestate.com/recipes/langs/python 

很 长 一 段 时 间 以 来 ,在 ActiveState 的 Python 版 块 上 可 找到 数 以 千 计 的 针对 特定 编程 问 
题 的 解决 方案 。 在 写作 本 书 时 ， 已 经 包含 有 大 约 300 条 特定 于 Python 3 的 秘籍 。 你 会 
发 现 其 中 的 许多 秘籍 要 么 对 本 书 中 已 经 涵盖 的 主题 进行 了 扩展 ， 要 么 缩小 范围 ， 专 注 
于 更 加 具体 的 任务 。 因 此 ， 它 是 学 习 Python 3 时 的 好 伴侣 。 
http://stackoverflow.com/questions/tagged/python 

Stack Overflow 上 目前 有 超过 175000 个 问题 被 标记 为 与 Python 相关 ( 而 这 其 中 又 有 大 


约 5000 个 问题 是 特定 于 Python 3 的 )。 尽 管 每 个 问题 与 回答 的 质量 有 所 区 别 ， 但 仍然 
可 以 找到 许多 优秀 的 素材 。 
























































A.2 学 习 Python 的 图 书 


下 面 这 些 图 书 提供 了 对 Python 编程 的 入 门 介绍 ， 且 重点 放 在 了 Python 3 Eo 
e Learning Python， 第 四 版 ,作者 Mark Lutz, O’Reilly&Associates 出 版 (2009 )。 























e The Quick Python Book， 第 二 版 ， 作 者 Vernon Ceder, Manning 出 版 (2010 )。 


e Python Programming for the Absolute Beginner, 第 三 版 ， 作者 Michael Dawson, 
Course Technology PTR 出 版 ( 2010 )。 





e Beginning Python: From Novice to Professional， 第 二 版 ， 作 者 Magnus Lie Hetland, 
Apress 出 版 ( 2008 ). 


A 


e Programming in Python 了 ， 第 二 版 ， 作 者 Mark Summerfield, Addison-Wesley 出 版 
(2010 )。 





A.3 高 级 图 书 
下 面 这 些 图 书 则 涵盖 了 更 加 高 级 的 技术 ， 其 中 也 包括 了 Python 3 方面 的 主题 。 
e Programming Python, 第 四 版 ,作者 Mark Lutz, O’Reilly & Associates 出 版 ( 2010 )。 








e Python Essential Reference, 第 四 版 ,作者 David Beazley , Addison-Wesley 出 版 ( 2009 )。 


e Core Python Applications Programming, =h, VEZ Wesley Chun, Prentice Hall 出 
版 (2012 )。 


e The Python Standard Library by Example, 作者 Doug Hellmann, Addison-Wesley 出 
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We (2011 )。 

Python 3 Object Oriented Programming, {7% Dusty Phillips, Packt Publishing 出 版 
(2010 ). 

Porting to Python 了 ， 作 者 Lennart Regebro, CreateSpace 出 版 ( 2011 ), http: 
//python3porting.com. 
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大 于 作者 


David Beazley 是 一 位 居住 在 芝加哥 的 独立 软件 开发 者 以 及 图 书 作 者 。 他 主要 的 工作 在 
于 编程 工具 ， 提 供 定制 化 的 软件 开发 服务 ， 以 及 为 软件 开发 者 、 科 学 家 和 工程 师 教 授 
编程 实践 课程 。 他 最 为 人 熟知 的 工作 在 于 Python 编程 语言 ， 他 已 为 此 创建 了 好 几 个 开 
源 的 软件 包 ( 例如 Swig 和 PLY )， 并 且 是 备 受 赞誉 的 图 书 Python Essential Reference 的 
作者 。 他 也 对 C、C++ 以 及 汇编 语言 下 的 系统 编程 有 着 丰富 的 经 验 。 


Brain K. Jones 是 普林斯顿 大 学 计算 机 系 的 一 位 系统 管理 员 。 













































































封面 说 明 


本 面 封面 上 的 动物 是 一 只 跳 鼠 ( 跳 兔 )， 也 被 称 为 春 免 。 跳 免 根本 就 不 是 野兔， 而 只 是 
嘴 齿 目 跳 免 科 中 唯一 的 成 员 。 它 们 不 是 有 袋 类 动物 ， 但 隐约 有 些 袋鼠 的 样子 ， 有 着 短 
小 的 前 腿 ， 强 有 力 的 后 腿 ， 适 合 于 跳跃 。 除 此 之 外 还 有 一 根 长 长 的 、 强 壮 有 力 且 毛发 
浓密 (但 不 容易 抓 住 ) 的 尾巴 ， 用 来 掌握 平衡 以 及 坐 下 来 的 时 候 作为 支撑 物 。 它 们 能 
长 到 14~ 18 英寸 , 尾巴 几乎 和 身体 一 样 长 ,体重 大约 可 达 8 磅 。 跳 免 有 着 油腻 且 富 
光泽 的 褐色 或 金色 表皮 ， 和 柔软 的 皮毛 ， 它 的 腹部 是 白色 的 。 它 们 的 头 部 有 着 和 身体 不 
成 比例 的 大 小 ， 耳 条 则 很 长 ( 耳 条 底部 有 一 块 可 翻动 的 皮肤 ， 这 样 当 它们 在 打 洞 时 可 
以 避免 让 沙子 进入 耳 杀 里 )， 眼睛 是 深 棕 色 的 。 


跳 免 全 年 都 可 以 交配 ， 孕 期 在 78 ~ 82 天 。 上 肉 性 跳 兔 一 般 每 窜 只 会 产 一 只 小 跳 免 (小 跳 
兔 会 一 直 采 在 它 的 妈妈 身边 ， 直 到 大 约 7 周 大 为 止 ), 但 每 年 会 有 3 个 或 4 个 窜 。 刚 生 
下 的 小 跳 锡 是 有 牙齿 的 ， 而 且 毛 发 齐全 ， 眼 睛 是 闭 上 的 ， 而 耳 人 条 是 打开 着 的 。 


跳 免 是 陆 生 生物 ， 非 常 适应 于 挖掘 地 洞 。 它 们 白天 喜欢 呆 在 自己 构筑 的 洞穴 和 地 道 所 
交织 成 的 网 络 中 。 跳 免 是 夜间 活动 生物 ， 主 要 食 草 ， 可 以 吃 鳞茎 植物 、 根 、 谷 物 ， 偶 
尔 也 吃 昆 由 。 当 它们 在 砚 食 时 会 移动 四 胶 ， 但 每 一 次 水 平 跳 竖 能 移动 10 ~ 25 RR, i 
到 危险 时 能 够 快速 逃离 。 虽 然 常 能 在 野外 看 见 跳 免 集体 更 食 ， 但 它们 并 不 会 形成 一 个 
有 组 织 的 社会 化 单位 , 通常 都 是 独自 筑 窝 或 者 成 对 繁殖 。 跳 免 在 圈养 下 可 以 存活 15 年 。 
可 以 在 扎 伊 尔 、 肯 尼 亚 以 及 南非 的 干燥 沙漠 或 者 半 干 旱地 区 见 到 跳 免 的 身影 ， 它 们 也 
是 南非 最 受 喜 爱 的 重要 食物 来 源 。 
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www.epubit.com.cn 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 

异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 
社 旗下 IT 专业 图 书 旗舰 社区 ， 于 2015 年 8 月 上 线 
运营 。 

异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 IT 
专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 出 版 
与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 结合 、 
传统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 
新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 

















社区 里 都 有 什么 ? 


BLRB 

我 们 出 版 的 图 书 涵盖 主流 IT 技术 , 在 编程 语言 Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 
定期 发 布 新 书 书 讯 。 























下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 











与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社区 , 您 可 以 关注 他 们 , 咨询 技术 问题 可 以 阅读 不 断 更 新 的 技术 文章 ， 
听 作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采 
访 题目 。 








灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购 买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书库 发 货 ， 电 子 
书 提 供 多 种 阅读 格式 。 

对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 

用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ,在 。 : 
里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


特别 优惠 


购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社 





区 用 户 ， 在 下 单 购书 时 输入 57AWG 


用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 











纸 电 图 书 组 合 购买 


社 


























社区 里 还 可 以 做 什么 ? 


提交 勘误 


区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 
价格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 


， 然 后 点 击 “ 使 
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这 是 一 本 真正 从 “人 ” (TEESE ) 的 角度 关注 软件 天 | 
凸显 技术 


软 技能 : 代码 之 外 的 生存 指南 


Z Sonmez ) (作者 ) 


王 小 刚 ( 译 者 ) 。 杨 海 珍 EERE 
G@ 6 9. OK 





自身 发 展 的 书 。 书 中 论述 的 
素 ,全 面 讲解 软件 行业 从 业 人 员 所 





,从 所 





流程 到 精 料 细作 出 一 份 杀 手 级 简历 , 从 创 
从 提高 自己 工作 效率 到 如 何 与 “拖延 症 " 做 斗争 BE 


| 健康。 
258, 278, SUS. G88. PERSE. WETS 


900 ¥46.02 (7.8% 


电子 版 + 纸 质 版 ” 羊 59.00 














您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 积分 。 


机 会 参与 书稿 的 审 校 和 翻译 工作 。 


写作 





社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身 手 ， 在 社 


术 心 得 和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 
还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 


如 果 成 为 社区 认证 作 译 者 ， 


会 议 活动 早 知道 








您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 





加 入 异步 





会 门票 。 


扫描 任意 二 维 码 都 能 找到 我 们 : 


热心 勘误 的 读者 还 有 
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nate 


RSNZ ala 
社区 网 址 : ~www.epubit.com.cn 
官方 微 信 : 异步 社区 
EDME: @ 人 邮 异 步 社 





区 ，@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 


QQ 群 : 368449889 


